Kehidupan kita dikelilingi oleh teks, mulai dari kotak sereal saat sarapan hingga pesan WhatsApp, email, berita, iklan, unggahan media sosial, dan masih banyak lagi. Dengan asumsi beberapa bagian yang signifikan dipertahankan, menafsirkan volume dan variasi materi ini akan menjadi tantangan bagi para peneliti di masa depan. Kemajuan terbaru dalam kecerdasan buatan dan pembelajaran mesin telah memberi kita alat baru untuk menganalisis dan memproses koleksi teks dalam jumlah besar. Di antara serangkaian alat berbasis Pemrosesan Bahasa Alami (Natural Language Processing/NLP) yang berkembang dalam beberapa tahun terakhir, kami akan memperkenalkan pemodelan topik dan menunjukkan bagaimana alat ini dapat sangat membantu para sejarawan akademis. Dengan pemodelan topik, sejarawan dapat mengekstrak dan menafsirkan hubungan antara teks, gambar, dan video serta melakukan penelitian di seluruh kumpulan koleksi teks yang lebih luas dan pada rentang topik yang lebih luas.
Pemodelan topik
Pemodelan topik adalah teknik analisis teks yang kuat yang memungkinkan peneliti untuk mengidentifikasi pola atau kelompok kemunculan bersama kata dalam suatu kumpulan dokumen. Pemodelan topik mengikuti pendekatan "sekumpulan kata", yang mengidentifikasi topik berdasarkan kemunculan bersama dan frekuensi kata tanpa mengacu pada konteks. Beberapa algoritma dapat digunakan untuk melakukan analisis pemodelan topik, termasuk Alokasi Latent Dirichlet (LDA), model topik yang berkorelasi, atau model topik hirarkis. Secara umum, pemodelan topik sangat berguna bagi para peneliti yang ingin menafsirkan korpus teks berskala besar .
Koleksi yang lebih kecil dapat terus dianalisis dengan menggunakan metode penelitian tradisional, tetapi begitu korpus arsip melebihi skala yang dapat dibaca manusia (mungkin sekitar beberapa ribu halaman teks), para peneliti akan membutuhkan beberapa bentuk dukungan komputasi untuk memproses teks sambil mempertahankan hubungan statistik antara kata-kata secara efisien. Fitur penting dari pemodelan topik adalah bahwa hal ini memungkinkan peneliti untuk "menemukan" topik dari teks daripada menentukan atau mengasumsikannya terlebih dahulu, yang pada prinsipnya mengatasi satu sumber bias peneliti. Meskipun pemodelan topik tidak dapat menggantikan pembacaan yang cermat terhadap sumber-sumber tertentu, pemodelan topik berguna untuk klasifikasi, deteksi kebaruan, ringkasan, atau tugas analisis kesamaan. Moretti (2013) menggambarkan proses ini sebagai "pembacaan jauh", suatu jenis interpretasi tingkat tinggi yang dapat melengkapi bentuk-bentuk interpretasi ilmiah lainnya.
"Saling melengkapi" ini beroperasi dalam beberapa cara penting bagi peneliti akademis. Ketersediaan koleksi teks berskala besar telah meningkatkan gangguan dan informasi yang berlebihan, sehingga melipatgandakan beban kognitif para peneliti. Algoritma sangat efisien dalam menemukan pola di antara teks-teks sementara mengabaikan konteks, sedangkan peneliti unggul dalam memahami konteks dan fenomena yang mereka pelajari. Dengan mengizinkan model topik untuk meringankan beban kognitif, sejarawan dapat meningkatkan ukuran, jumlah, dan variasi input tekstual yang mereka gunakan. Mengizinkan algoritma untuk mengidentifikasi topik-topik laten dapat menghasilkan temuan-temuan yang mengejutkan dan menyempurnakan pertanyaan-pertanyaan penelitian sekaligus meningkatkan keandalan studi dan kesimpulan. Selain itu, pemodelan topik memungkinkan transparansi dan replikasi yang lebih besar, memfasilitasi munculnya berbagai interpretasi yang berulang-ulang.
Structural topic modeling
Pemodelan topik struktural (STM) adalah bagian dari pemodelan topik yang menggabungkan metadata tingkat dokumen ke dalam analisis. Sejarawan dan cendekiawan yang tertarik untuk memahami bagaimana topik atau konsep berkembang dari waktu ke waktu mungkin menganggap pemodelan topik struktural lebih berguna daripada pemodelan topik tradisional. STM memiliki dua fitur penting: pertama, model ini memungkinkan dokumen untuk ditugaskan ke beberapa topik, dan kedua, algoritma STM menggunakan metadata struktural - pengarang, tahun, afiliasi ideologi, dll. - ketika mengidentifikasi topik, sehingga memungkinkan peneliti untuk memahami bagaimana relevansi topik berubah berdasarkan atribut-atribut tersebut (misalnya, berdasarkan pengarang, tahun, afiliasi ideologi, dll.).
Pemodelan topik (LDA) dan STM memiliki asumsi yang sama: setiap topik didefinisikan oleh sekumpulan kata yang tetap. Topik (dan kata-kata dalam setiap topik) disimpulkan dari seluruh kumpulan dokumen dan sama untuk semua dokumen dalam korpus. Oleh karena itu, kedua algoritma ini tidak dapat menunjukkan bagaimana makna berubah dari waktu ke waktu.

Kredit. Taylor and Francis
Dynamic topic modeling
Model topik dinamis (DTM) adalah jenis lain dari model topik yang membantu peneliti mengeksplorasi bagaimana konten topik berubah dari waktu ke waktu. Tidak seperti STM, yang hanya menunjukkan perubahan relevansi topik dari waktu ke waktu, DTM memperkirakan topik pada periode yang dipilih dan, dengan mempertahankan topik ini secara konstan, memperkirakan topik yang sama pada periode berikutnya, sehingga memungkinkan adanya perubahan dalam prevalensi kata dan kata-kata yang terkandung di dalam setiap topik (namun, jumlah topik tetap dari waktu ke waktu). Seperti yang dijelaskan oleh para pengembang DTM: "Dalam model ini, artikel dikelompokkan berdasarkan tahun, dan artikel setiap tahun muncul dari sekumpulan topik yang telah berevolusi dari topik tahun lalu". Seperti STM, DTM dapat menangkap perubahan dari waktu ke waktu, tetapi DTM melacak perubahan dalam setiap topik, sehingga peneliti dapat melihat kata dan konsep apa yang mendominasi topik tertentu dalam periode yang berbeda.
Peran para peneliti
Sejauh ini, kami telah menunjukkan bagaimana model topik dapat berguna untuk menganalisis koleksi teks yang besar. Namun, koleksi teks tidak tiba di meja peneliti begitu saja; peneliti membuat keputusan penting yang mempengaruhi input dan output. Semua keluaran model topik bergantung pada masukan yang diberikan (jenis dan variasi teks, foto, atau video), jenis algoritma yang dipilih (LDA, STM, DTM, dan lain-lain), dan parameter model lain yang ditentukan oleh peneliti (misalnya, jumlah topik, metadata, tahun dasar). Selama proses penelitian, peran dan penilaian peneliti sangat penting.
Dengan kata lain, peneliti harus membuat beberapa keputusan yang mempengaruhi hasil dan kesimpulan yang diambil dari model topik. Keputusan-keputusan ini termasuk memilih dokumen dalam korpus, membersihkan data, memilih algoritma yang sesuai, memilih parameter model, menentukan jumlah topik yang tepat, memberi label pada topik, memvalidasi hasil, dan menginterpretasikan hasil. Interpretasi yang baik bergantung pada kombinasi pemahaman yang mendalam mengenai koleksi, fenomena yang sedang dipelajari, konteks yang sedang dipelajari, dan pilihan metodologi pemodelan yang digunakan untuk menyimpulkan makna dari output. Dalam hal ini, keluaran dari model topik harus dianggap eksploratif, dan peneliti harus berhati-hati dalam menafsirkan hasil secara berlebihan. Untuk memastikan validitas hasil, peneliti harus melakukan triangulasi dengan beberapa model topik, memvalidasi hasil dengan menggunakan data eksternal atau pendapat ahli, dan melakukan pemeriksaan ketangguhan.
Kesimpulannya, teknik pembelajaran mesin memiliki potensi untuk membantu kita memajukan pengetahuan. Karena alat-alat ini sekarang mudah tersedia, dan para peneliti dapat menerapkannya di bidang keahlian mereka sendiri, namun mereka harus berhati-hati dalam membuat keputusan penting dan menginterpretasikan output dari model topik. Peran peneliti dalam proses ini tetap penting untuk pembuatan pengertian dan pembangunan teori.
🔬🧫🧪🔍🤓👩🔬🦠🔭📚
Referensi jurnal
Villamor Martin, M., Kirsch, D. A., & Prieto-Nañez, F. (2023). The promise of machine-learning-driven text analysis techniques for historical research: topic modeling and word embedding. Management & Organizational History, 1-16. https://doi.org/10.1080/17449359.2023.2181184