Rainfall Classification Using Output Statistics Models Based on Classification and Regression Trees with Principal Component Analysis Preprocessing

Authors

  • Zulkifli Rais Universitas Negeri Makassar
  • Hardianti Hafid Department of Statistics, Universitas Negeri Makassar
  • Yhegi Rombe Bunga Department of Statistics, Universitas Negeri Makassar

Keywords:

Principal Component Analysis, Classification and Regression Trees, Rainfall

Abstract

Makassar City has a varied monsoon rainfall pattern, so rainfall prediction is an important challenge in disaster mitigation and resource management. Data mining techniques such as classification with the Classification and Regression Trees (CART) algorithm can be used to classify rainfall and analyze historical data, but the risk of overfitting high-dimensional data requires dimension reduction such as Principal Component Analysis (PCA). To improve accuracy, the Output Statistics Model (MOS) approach that combines numerical data and observations is also used. The results of dimension reduction using the Principal Component Analysis (PCA) method showed that of the initial seven variables, only three main components (, , and ) were retained because they had eigenvalues greater than 1 and were able to explain the data variance significantly. The decision tree model that was formed resulted in an accuracy rate of 72.34% in training data. Where the model can classify most of the training data into the correct rainfall category. In the data testing, the model was able to achieve an accuracy level of 71.43%, which shows that the model has good generalization ability to new data and does not experience overfitting.

References

Aminuddin, J., (2016). Pengaruh Kecepatan Angin Terhadap Evapotranspirasi Berdasarkan Metode Penman Di Kebun Stroberi Purbalingga. Elkawnie: Journal of Islamic Science and Technology, 2(1), 21–28. www.jurnal.ar-raniry.com/index.php/elkawnie

Azmi. B., Hermawan. A., & A. . D. (2023). Analisis Pengaruh Komposisi Data Training dan Data Testing pada Penggunaan PCA dan Algoritma Decision Tree untuk Klasifikasi Penderita Penyakit Liver. JTIM?: Jurnal Teknologi Informasi Dan Multimedia, 4(1), 281–290. https://doi.org/10.35746/jtim.v4i4.298

Azmi, U. (2017). Prediksi curah hujan melalui Model Output Statistics menggunakan Classification And Regression Trees dengan Pre-Processing Principal Component Analysis [Skripsi, Institut Teknologi Sepuluh Nopember, 2017]. http://repository.its.ac.id/3294/

Dwirani, F. (2019). Menentukan stasiun hujan dan curah hujan dengan metode polygon thiessen daerah kabupaten lebak. Jurnal Lingkungan Dan Sumberdaya Alam (JURNALIS), 2(2), 139–146. https://ejournal.lppm-unbaja.ac.id/index.php/jls/article/view/674

Evalina, Y., & Sinambela, S. (2008). Penerapan Metode Pohon Klasifikasi Dengan Algoritma CART pada Data Status Daerah Kabupaten Di Indonesia. Skripsi, Tidak Diterbitkan, Institut Pertanian Bogor, 2008.

Firdaus, R. F. (2022). Prediksi Curah Hujan Menggunakan Metode Long Short Term Memory ( Studi Kasus?: Kota Bandung ) [Skripsi, Universitas Islam Indonesia]. https://dspace.uii.ac.id/handle/123456789/42746

Handoko, S., Fauziah, F., & Handayani, E. T. E. (2020). Implementasi Data Mining Untuk Menentukan Tingkat Penjualan Paket Data Telkomsel Menggunakan Metode K-Means Clustering. Jurnal Ilmiah Teknologi Dan Rekayasa, 25(1), 76–88. https://doi.org/10.35760/tr.2020.v25i1.2677

Hasanah, M. A., Soim, S., & Handayani, A. S. (2021). Implementasi CRISP-DM Model Menggunakan Metode Decision Tree dengan Algoritma CART untuk Prediksi Curah Hujan Berpotensi Banjir. Journal of Applied Informatics and Computing, 5(2), 103–108. https://doi.org/10.30871/jaic.v5i2.3200

Imah, E. M., & Basaruddin, T. (2011). Klasifikasi Beat Aritmia Pada Sinyal EKG Menggunakan Fuzzy Wavelet Learning Vector Quantization. Jurnal Ilmu Komputer Dan Informasi, 4(1), 1–9.

Juliati, D. (2023). Analisis Karakteristik Curah Hujan Dengan Menggunakan Klasifikasi Schmidr-Fergusson Di Kota Makassar. Jurnal Sains Dan Pendidikan Fisika (JSPF), 2, 229–235. https://pdfs.semanticscholar.org/0f27/312229fc0a96555b3395beb96aebe38cbe18.pdf

Koentjoro, Y. (2014). Dampak Perubahan Pola Curah Hujan Terhadap Pertumbuhan Tanaman Pangan Di Kabupaten Pasuruan. In Academia.Edu. https://www.academia.edu/download/39359102/Tugas_Bu._Kokom_Perubahan_pola_curah_hujan.pdf

Malino, C. R., Arsyad, M., & Palloan, P. (2021). Analisis Parameter Curah Hujan dan Suhu Udara di Kota Makassar Terkait Fenomena Perubahan Iklim. Jurnal Sains Dan Pendidikan Fisika (JSPF), 17(2), 139–145.

Maraun, D., & Widmann, M. (2017). Model Output Statistics [Skripsi, Institut Teknologi Sepuluh Nopember]. In Statistical Downscaling and Bias Correction for Climate Research. https://doi.org/10.1017/9781107588783.013

Maulidani S, S., Ihsan, N., & Sulistyawati. (2015). Analisis Pola Dan Intensitas Curah Hujan Berdasakan Data Observasi Dan Satelit Tropical Rainfall Measuring Missions (TRMM) 3B42 V7 Di Makassar. Jurnal Sains Dan Pendidikan Fisika (JSPF), 11(1), 98–103.

Mulyana, E. (2002). Pengaruh Dipole Mode Terhadap Curah Hujan Di Indonesia. Jurnal Sains & Modifikasi Cuaca, 3(1), 39–43.

Musfiroh, M., Novitasari, D. C. R., Intan, P. K., & Wisnawa, G. G. (2023). Penerapan Metode Principal Component Analysis (PCA) dan Long Short-Term Memory (LSTM) dalam Memprediksi Prediksi Curah Hujan Harian. Building of Informatics, Technology and Science (BITS), 5(1), 1–11. https://doi.org/10.47065/bits.v5i1.3114

Nensi, T., Ihsan, N., & Patandean, A. . (2016). hujan bulanan minimum yaitu pada bulan Juni , Juli atau Agustus dan puncak maksimum musim hujan yaitu pada bulan Proses Pengambilan Data . Proses Analisis Data. Jurnal Sains Dan Pendidikan Fisika., 12(3), 324–329.

Nuraliza, H., Pratiwi, O. N., & Hamami, F. (2022). Analisis Sentimen IMBd Film Review Dataset Menggunakan Support Vector Machine (SVM) dan Seleksi Feature Importance. Jurnal Mirai Manajemen, 7(1), 1–17.

Prakoso, D. (2018). Analisis pengaruh tekanan udara, kelembaban udara dan suhu udara terhadap tingkat curah hujan di kota semarang. Jurnal Universitas Negeri Semarang, 1–77. http://lib.unnes.ac.id/id/eprint/36742

Pratiwi, F. E., & Zain, I. (2014). Klasifikasi pengangguran terbuka menggunakan CART (Classification and regression tree) di Provinsi Sulawesi Utara. Jurnal Sains Dan Seni ITS, 3(1), D54–D59. http://www.ejurnal.its.ac.id/index.php/sains_seni/article/view/6129

Ramadhan, I. A., & Septiadi, D. (2024). The Utilization of Model Output Statistic ( MOS ) in Improving Weather Prediction Model Accuracy of Integrated Forecasting System ( IFS ). 16(2).

Safitri, R., & Sutikno. (2012). Model Output Statistics dengan Projection Pursuit Regression untuk Meramalkan Suhu Minimum, Suhu Maksimum, dan Kelembapan. Jurnal Sains Dan Seni ITS, 1(1), 296–301. http://ejurnal.its.ac.id/index.php/sains_seni/article/view/2070

Saleh, A., & Nasari, F. (2018). Penerapan Equal-Width Interval Discretization Dalam Metode Naive Bayes Untuk Meningkatkan Akurasi Prediksi Pemilihan Jurusan Siswa. Masyarakat Telematika Dan Informasi?: Jurnal Penelitian Teknologi Informasi Dan Komunikasi, 9(1), 1. https://doi.org/10.17933/mti.v9i1.113

Saputra, K. A., Hardinata, J. T., Lubis, M. R., Andani, S. R., & Saragih, I. S. (2020). Klasifikasi Algoritma C4.5 Dalam Penerapan Tingkat Kepuasan Siswa Terhadap Media Pembelajaran Online. Kajian Ilmiah Informatika Dan Komputer, 1(3), 113–118. https://djournals.com/klik

Sari, Irma Purnamasari, A., & Rinaldi Dikanda, A. (2023). Implementasi Data Mining Dalam Menentukan Pola Penjualan Vitamin Blackmores. JATI (Jurnal Mahasiswa Teknik Informatika), 7(2), 1265–1269. https://doi.org/10.36040/jati.v7i2.6534

Sudipa, I. G. I., Darmawiguna, I. G. M., Dendi, I. M., & Sanjaya, M. (2024). Buku ajar data mining. Jambi?: PT. Sonpedia Publishing Indonesia.

Tanjung, R. H., & Kartiko. (2017). Penerapan Metode CART ( Classification and Regression Trees ) Untuk Menentukan Faktor-faktor Yang Mempengaruhi Pembayaran Kredit Oleh Nasabah (Studi Kasus Bank BRI Unit Aek Tarum-Sumatera Utara). Jurnal Statistika Industri Dan Komputasi, 2(2), 78–83.

Tinungki, G. M., & Sunusi, N. (2018). Penerapan Sparse Principal Component Analysis dalam Menghasilkan Matriks Loading yang Sparse. Jurnal Matematika Statistika Dan Komputasi, 15(2), 44. https://doi.org/10.20956/jmsk.v15i2.5713

Wijaya, Y. F., & Triayudi, A. (2023). Perbandingan Algoritma Klasifikasi Data Mining Pada Prediksi Penyakit Diabetes. Journal of Computer System and Informatics (JoSYC), 5(1), 165–174. https://doi.org/10.47065/josyc.v5i1.4614

Published

2026-04-17

How to Cite

Rais, Z., Hafid, H., & Bunga, Y. R. (2026). Rainfall Classification Using Output Statistics Models Based on Classification and Regression Trees with Principal Component Analysis Preprocessing. JINAV: Journal of Information and Visualization, 7(1). Retrieved from https://jinav.org/index.php/jinav/article/view/4788

Issue

Section

Articles