Random forests: Cracking the code of missing information
///

Random forest: Memecahkan kode informasi yang hilang

Dapatkah random forest mengatasi data yang hilang dengan menggunakan imputasi yang cerdas untuk prediksi yang dapat diandalkan dalam aplikasi praktis?

Bayangkan jika Anda bangun di suatu pagi dan merasa tidak enak badan, sehingga Anda memutuskan untuk mencari pertolongan medis. Saat tiba di klinik, petugas medis mungkin akan bertanya, "Apakah ada sesuatu yang mengganggu Anda?" dan Anda akan menjawab, "Sejak pagi tadi, saya mengalami sakit perut." Pertanyaan petugas medis selanjutnya adalah, "Apa makanan terakhir yang Anda makan?" Anda kemudian melanjutkan dengan menjelaskan makan malam yang menyenangkan yang Anda nikmati pada malam sebelumnya. Setelah serangkaian pertanyaan, petugas medis memberitahu Anda bahwa Anda hanya mengalami gangguan pencernaan ringan karena makan berlebihan dan meresepkan pengobatan untuk sakit perut. Petugas medis sampai pada diagnosis ini berdasarkan pengalaman mereka dengan gejala yang sama dan pengetahuan ahli, sehingga mereka menyimpulkan bahwa hal tersebut hanyalah gangguan pencernaan.

Teknik ini mencerminkan pendekatan yang digunakan dalam membangun pohon klasifikasi dan regresi (Classification and Regression Trees - CART), di mana kita memiliki nilai variabel prediktor tertentu (gejala) dan variabel target yang diinginkan (penyakit). Tujuan utamanya adalah untuk menentukan sebuah fungsi yang menggunakan prediktor-prediktor tersebut sebagai masukan dan menyimpulkan nilai variabel target.

Baik pohon regresi maupun klasifikasi mencapai hal ini melalui proses berikut: Seluruh ruang prediktor membentuk akar pohon, yang kemudian dibagi menjadi beberapa wilayah. Setiap wilayah dibagi lagi menjadi sub-wilayah, terus berlanjut hingga aturan penghentian yang ditentukan diterapkan. Pemisahan dalam sebuah sel ditentukan dengan memaksimalkan kriteria pemisahan yang dipilih. Meskipun ada berbagai kriteria pemisahan dalam literatur, yang paling populer adalah kriteria pemisahan (Classification and Regression Trees - CART). Kriteria ini bertujuan untuk mencapai homogenitas nilai variabel target dalam setiap sel sekaligus mengupayakan perbedaan yang paling signifikan antar sel.

Apa yang dimaksud dengan random forest?

Sebuah random forest terdiri dari beberapa pohon yang diacak. Pengacakan di antara pohon-pohon ini dapat dilakukan dengan berbagai cara, tetapi pendekatan yang paling umum adalah dengan melibatkan dua bagian yang berbeda dari algoritma. Pertama, sebelum membangun sebuah pohon, observasi diambil sampelnya secara acak, dan hanya observasi terpilih yang digunakan untuk membangun pohon tersebut.

Kedua, setiap kali sebuah sel dipecah selama konstruksi pohon, kriteria pemisahan dimaksimalkan dengan hanya mempertimbangkan sebagian dari arah yang dipilih secara acak. Untuk memperluas analogi ini, jika kita menganggap satu pohon sebagai tenaga medis, maka random forest akan serupa dengan pendapat kolektif dari beberapa tenaga medis, yang masing-masing menawarkan pengamatan dan perspektif mereka.

Masalah muncul ketika pengamatan tertentu memiliki nilai yang hilang untuk beberapa variabel prediktor, mirip dengan menjawab "Saya tidak tahu" terhadap pertanyaan spesifik yang diajukan oleh petugas medis dalam analogi kita. Kami menyarankan untuk mengadaptasi kriteria pemisahan untuk mengakomodasi observasi yang tidak lengkap untuk mengatasi hal ini. Konsep di balik pendekatan ini sangat sederhana: setiap kali kita membagi sel, kita menetapkan observasi dengan nilai yang hilang ke subsel yang memaksimalkan kriteria.

Can random forests, inspired by medical diagnosis, tackle missing data using clever imputation for reliable predictions in practical applications?
Gambar 1. Pohon klasifikasi dan regresi membangun sebuah fungsi yang mengambil input dari variabel prediktor untuk memprediksi variabel target. Hal ini dilakukan dengan membagi ruang prediktor ke dalam beberapa wilayah yang kemudian dipecah menjadi beberapa sub-wilayah. Proses berulang ini menciptakan struktur pohon.

Mekanisme data yang hilang

Dalam analogi kami, kami menyebut nilai yang hilang sebagai jawaban yang setara dengan "Saya tidak tahu" untuk sebuah pertanyaan. Namun, nilai yang hilang dapat muncul dari berbagai skenario, seperti menolak menjawab pertanyaan tertentu. Menariknya, alasan di balik data yang hilang sama pentingnya dengan data yang hilang itu sendiri. Ada perbedaan antara seseorang yang secara tidak sengaja tidak menjawab pertanyaan survei dan seseorang yang secara sadar memutuskan untuk tidak memberikan jawaban. Hubungan antara data dan alasan hilangnya data inilah yang kami sebut sebagai mekanisme data yang hilang.

Mekanisme data yang hilang dapat diklasifikasikan ke dalam tiga kategori: MCAR (Missing Completely At Random), yang terjadi ketika probabilitas hilangnya data tidak terkait dengan nilai prediktor atau variabel target; MAR (Missing At Random), di mana probabilitas hilangnya data terkait dengan beberapa variabel yang diukur tetapi tidak dengan nilai yang hilang itu sendiri; dan MNAR (Missing Not At Random), yang muncul ketika probabilitas hilangnya data bergantung pada nilai yang hilang itu sendiri.

Studi simulasi

Merencanakan studi komputasi untuk algoritma pembelajaran mesin dengan benar sangat penting untuk mendapatkan hasil yang berarti. Oleh karena itu, tujuan utama dari penelitian kami adalah untuk melakukan perbandingan komprehensif dari berbagai strategi untuk menangani nilai yang hilang menggunakan random forest. Kami mempertimbangkan 7 mekanisme data hilang yang beragam dalam percobaan simulasi kami. 

Untuk memastikan penyelidikan yang menyeluruh, kami memilih beberapa algoritma sebagai tolok ukur, sehingga memungkinkan perbandingan antara metode langsung untuk mengatasi data yang hilang dan algoritma canggih yang lebih kompleks. Kami mengkategorikan algoritme ini ke dalam tiga kelompok:

  1. Penghapusan secara daftar melibatkan penghapusan semua pengamatan dengan nilai yang hilang dari kumpulan data. 
  2. Imputasi Algoritma , yang menghasilkan kumpulan data yang lengkap dengan menyimpulkan nilai yang hilang. 
  3. Algoritma yang secara langsung menangani nilai yang hilang selama konstruksi pohon, seperti yang ditunjukkan dalam pendekatan kami.

Gambar berikut mengilustrasikan rata-rata kesalahan kuadrat mean (MSE) yang terkait dengan pendekatan yang berbeda. Nilai MSE yang lebih rendah menunjukkan kinerja algoritma yang lebih baik secara keseluruhan. Pada gambar tersebut, penghapusan berdasarkan daftar (listwise) ditunjukkan dengan warna hijau, pendekatan yang mengimplementasikan imputasi dalam kumpulan data ditunjukkan dengan warna biru, dan metode yang secara langsung menangani nilai yang hilang selama konstruksi pohon digambarkan dengan warna merah.

Secara khusus, penghapusan berdasarkan daftar (dilambangkan sebagai 'NoRows') menghasilkan MSE terbesar, sehingga menjadi tolok ukur untuk kinerja minimum yang diharapkan dari metode apa pun yang mencoba memperkirakan fungsi regresi dengan nilai yang hilang. Perlu dicatat bahwa bahkan pendekatan langsung, seperti imputasi dengan median, dapat mengungguli sebagian besar metode yang dipertimbangkan atau menunjukkan kinerja yang sama di berbagai mekanisme data yang hilang.

Can random forests, inspired by medical diagnosis, tackle missing data using clever imputation for reliable predictions in practical applications?
Gambar 2. Rata-rata kesalahan kuadrat (MSE) untuk berbagai algoritma yang menggunakan random forest, dengan mempertimbangkan mekanisme hilangnya data yang berbeda. Semakin rendah nilai MSE, maka semakin baik algoritme tersebut secara rata-rata.
Can random forests, inspired by medical diagnosis, tackle missing data using clever imputation for reliable predictions in practical applications?
Gambar 3. Rata-rata Kesalahan Kuadrat dari berbagai algoritma yang berbeda, dengan memvariasikan persentase nilai yang hilang.
Kredit. Journal of Statistical Computation and Simulation

Pembahasan dan kesimpulan

Tidak mengherankan, penghapusan secara daftar (listwise) menunjukkan kinerja yang paling buruk, dan disarankan untuk menghindari pendekatan ini kecuali jika persentase observasi dengan nilai yang hilang sangat minim, sehingga memungkinkan penghapusan tanpa konsekuensi yang signifikan. Ketika persentase nilai yang hilang berkurang (sekitar 20% atau kurang), bahkan teknik sederhana seperti imputasi median dapat memberikan hasil yang sebanding dengan algoritma yang lebih kompleks.

Hingga saat ini, banyak pendekatan yang belum memberikan petunjuk yang jelas dalam memprediksi observasi baru ketika hanya sebagian dari variabel prediktor yang tersedia. Langkah ini sangat penting dan tidak boleh diabaikan, karena mekanisme yang sama yang menyebabkan nilai yang hilang selama fase pelatihan dapat juga berlaku selama fase prediksi. Mengatasi aspek ini sangat penting untuk memastikan prediksi yang kuat dan dapat diandalkan dalam aplikasi praktis.

πŸ”¬πŸ§«πŸ§ͺπŸ”πŸ€“πŸ‘©β€πŸ”¬πŸ¦ πŸ”­πŸ“š

Referensi jurnal

GΓ³mez-MΓ©ndez, I., & Joly, E. (2023). Regression with missing data, a comparison study of techniques based on random forests. Journal of Statistical Computation and Simulation, 1-26. https://doi.org/10.1080/00949655.2022.2163646

Irving Gomez Mendez adalah peneliti pascadoktoral di Laboratorium Jaringan Analisis Strategis dengan Pembelajaran Mesin dan AI (SAI) di dalam Kelompok Penelitian Ilmu Data dan Analisis (DSARG) di Pusat Teknologi Elektronik dan Komputer Nasional di Thailand. Selain itu, ia juga bekerja sebagai dosen di Universitas Ibero-Amerika di Meksiko sejak tahun 2021. Ia meraih gelar Doktor di bidang Probabilitas dan Statistik dari Centre for Research in Mathematics (CIMAT), dengan tesis berjudul 'Random Forests and Autoencoders with Missing Data'. Pada bulan Januari hingga Maret 2020, ia melakukan kunjungan penelitian di Inria-Lille, dengan fokus pada autoencoder variasional dengan data yang hilang.