Model generatif mengeksplorasi ruang laten untuk menghasilkan data yang beragam dan realistis, merevolusi AI dalam seni, sains, dan banyak lagi.
/

Model-model generatif dan ruang latennya

Model generatif mengeksplorasi ruang laten untuk menghasilkan data yang beragam dan realistis, merevolusi AI dalam seni, sains, dan banyak lagi.

Model generatif adalah batas baru dan mutakhir dari Kecerdasan Buatan. Model generatif adalah kelas algoritma pembelajaran mesin yang dirancang untuk membuat contoh data baru yang menyerupai kumpulan data yang diberikan. Model ini mempelajari pola, struktur, dan hubungan mendasar dalam data pelatihan dan kemudian menghasilkan sampel baru dengan karakteristik yang sama. Model generatif banyak digunakan dalam berbagai aplikasi, termasuk sintesis gambar dan video, pembuatan teks, penemuan obat, pencitraan medis, dll.

Gagasan utama yang mendasari sebagian besar model generatif adalah ruang laten. Ini mengacu pada representasi data abstrak berdimensi lebih rendah yang menangkap struktur dan variasi mendasar dalam ruang data berdimensi tinggi yang asli. Hal ini dapat dianggap sebagai ruang yang terkompresi dan lebih terorganisir di mana titik-titik data yang berbeda dengan karakteristik yang sama ditempatkan berdekatan satu sama lain.

Model generatif belajar memetakan titik-titik data dari ruang laten kembali ke ruang aslinya, yang secara efektif menghasilkan contoh data baru yang mirip dengan yang ada dalam kumpulan data pelatihan. Misalkan titik-titik dalam ruang laten disebarkan secara teratur menurut distribusi yang diketahui, kita dapat mengambil sampel suatu titik di dalamnya, dan meneruskannya sebagai masukan ke model generatif untuk mendapatkan contoh data baru.

Distribusi titik-titik yang teratur dalam ruang laten adalah properti penting yang mendasari tugas generatif. Misalkan kita tertarik untuk menghasilkan, katakanlah, gambar wajah manusia. Jika kita secara acak menghasilkan sebuah gambar, probabilitas untuk mendapatkan wajah secara praktis nol. Dalam banyak kasus, kita akan mendapatkan noise. Sebagai gantinya, generator mempelajari cara mengubah sampel apa pun dari ruang laten menjadi sebuah wajah, memetakan distribusi yang diketahui (yang disebut sebelumnya) ke dalam distribusi aktual yang kita inginkan.

Ada beberapa model generatif, yang memiliki perbedaan dalam hal cara menangkap dan mereproduksi distribusi data, pengaturan ruang laten, dan proses pelatihan yang digunakan untuk mempelajari pemetaan. Bahkan terminologinya pun bisa berbeda: proses pemetaan titik-titik dari ruang laten ke ruang asli biasanya disebut generasi atau decoding, sedangkan proses sebaliknya bisa disebut encoding, generasi terbalik, atau penyematan.

Poin-poin penting tentang ruang laten dalam model generative

Representasi Pembelajaran: Model generatif belajar untuk mengekstrak fitur dan representasi yang bermakna dari data saat memetakannya ke ruang laten. Representasi ini seharusnya menangkap atribut atau karakteristik penting dari data; pengkodean yang berbeda dapat menghasilkan kombinasi yang lebih atau kurang terjerat dari berbagai faktor penjelas variasi di balik data.

Pengurangan Dimensi: Ruang laten biasanya (tetapi tidak selalu) memiliki dimensi yang lebih rendah dibandingkan dengan ruang data asli. Pengurangan dimensi ini dapat membantu menyederhanakan proses pemodelan dan membuatnya lebih mudah digunakan, terutama ketika berhadapan dengan data yang kompleks dan berdimensi tinggi. Hal ini memfasilitasi penyelidikan semantik dari ruang laten dan studi tentang sifat aritmatika vektor dari faktor variasi.

Kontinuitas dan Kelancaran: Berdasarkan konstruksinya, ruang laten sering kali bersifat kontinu dan mulus, yang berarti bahwa perubahan kecil pada koordinat laten berhubungan dengan perubahan bertahap pada data yang dihasilkan. Properti ini memungkinkan interpolasi yang lancar di antara titik-titik data, yang menghasilkan transformasi bertahap pada data yang dihasilkan dan memungkinkan eksplorasi kreatif atas kemampuan model generatif.

Interpolasi dan Manipulasi: Ruang laten menawarkan kemampuan untuk melakukan manipulasi yang berarti pada data, yang pada prinsipnya mencegah resiko keluar dari ruang laten. Setiap operasi pengeditan pada data dapat dipahami dalam kaitannya dengan lintasan yang sesuai dalam ruang laten, yang memungkinkan untuk tugas-tugas seperti mengubah atribut tertentu atau bahkan melakukan operasi yang jauh lebih kompleks, misalnya rotasi kepala.

Gambar 2. Rotasi kepala mengikuti lintasan dalam ruang laten model difusi.
Source. Universitas Cornell

Adaptasi Domain dan Transfer Gaya: Ruang laten juga dapat mengaktifkan adaptasi domain dan transfer konten atau transfer gaya, di mana model dapat belajar untuk menguraikan berbagai faktor variasi (seperti gaya dan konten) dan mentransfernya di antara sampel.

Pengkondisian: Pengkondisian dalam model generatif mempengaruhi pembuatan data dengan memberikan informasi tambahan. Informasi ini, yang dikenal sebagai "kondisi" atau "konteks", memandu keluaran model agar sesuai dengan karakteristik yang diinginkan. Hal ini memungkinkan pembuatan konten yang terkendali, menjadikan model lebih mudah beradaptasi dan serbaguna, meningkatkan kemampuannya untuk menghasilkan hasil yang relevan secara kontekstual dan koheren.

Beberapa kelas model generatif telah diselidiki selama bertahun-tahun, termasuk Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), Autoregressive Models, Normalizing Flows, atau yang terbaru adalah MODEL DIFUSI DENOISASI.

GAN telah menjadi model generatif yang paling berpengaruh dan banyak digunakan selama beberapa tahun. GAN terdiri dari dua jaringan saraf: generator dan diskriminator. Generator menciptakan sampel data, sedangkan diskriminator membedakan antara sampel nyata dan sampel yang dihasilkan. Generator meningkatkan kemampuannya untuk menghasilkan sampel yang semakin realistis melalui pelatihan lawan. Mereka telah menunjukkan kemampuan yang luar biasa dalam menghasilkan data berkualitas tinggi, terutama gambar dan karya seni, memperoleh banyak terobosan dan berkontribusi terhadap popularitas teknik generatif.

Peran utama Jaringan Adversarial Generatif baru-baru ini ditantang oleh Denoising Diffusion Models (DDM), yang dengan cepat menjadi teknologi mutakhir dalam pemodelan generatif yang mendalam.

Landasan konseptual DDM berbeda secara signifikan. Pada dasarnya, ruang laten terdiri dari gambar yang penuh dengan noise, yang mengalami transformasi bertahap melalui proses denoising yang berulang-ulang, yang pada akhirnya menghasilkan sampel yang menyerupai sampel dari distribusi pelatihan.

Gambar 3. Proses difusi maju (dari kiri ke kanan) dan mundur (dari kanan ke kiri). Proses maju secara bertahap menambahkan Gaussian noise pada gambar, dan proses sebaliknya menghilangkan nya.
 Sumber.

Untuk memvisualisasikan proses ini, pertimbangkan noise di dalam gambar sumber yang mirip dengan awan debu yang secara bertahap mengembun menjadi bentuk padat yang sesuai dengan sampel dari distribusi yang ditentukan. Awan noise yang berbeda akan menghasilkan sampel yang berbeda. Model ini bertujuan untuk memahami prinsip-prinsip dasar yang mengatur fenomena konvergensi bertahap ini.

Kesimpulan

Dalam beberapa tahun terakhir, model generatif telah memicu minat dan penelitian yang signifikan, mendorong batas-batas dari apa yang mungkin dilakukan dalam pembuatan data dan aplikasi AI yang kreatif serta berkontribusi besar terhadap perkembangan AI secara keseluruhan.

Kemajuan yang signifikan telah terjadi di berbagai bidang, menghasilkan hasil yang mengesankan seperti menghasilkan gambar dan video yang realistis, menghasilkan teks yang koheren, membuat musik, dan memfasilitasi penemuan obat dan desain molekuler.

Aplikasi umum lainnya termasuk resolusi super, peningkatan dan pemulihan gambar, deteksi anomali, deteksi dan pencegahan deepfake.

Secara umum, model generatif mewakili pendekatan mutakhir untuk mengatasi masalah yang ditandai dengan stokastisitas yang substansial pada hasil yang diprediksi. Pada intinya, fokusnya terletak pada pemodelan distribusi probabilitas dari hasil, di mana nilai yang diharapkan menandakan prediksi yang paling mungkin. Tujuan sebenarnya dari model generatif adalah untuk menangkap distribusi ini secara akurat.

Pendekatan ini dapat diterapkan di berbagai disiplin ilmu, yang mencakup berbagai bidang seperti prakiraan cuaca, analisis dan prediksi keuangan, epidemiologi dan penyebaran penyakit, pemodelan arus lalu lintas dan transportasi, serta dinamika sosial dan penyebaran opini.

๐Ÿ”ฌ๐Ÿงซ๐Ÿงช๐Ÿ”๐Ÿค“๐Ÿ‘ฉโ€๐Ÿ”ฌ๐Ÿฆ ๐Ÿ”ญ๐Ÿ“š

Referensi jurnal

Asperti, A., Evangelista, D., Marro, S., & Merizzi, F. (2023). Image embedding for denoising generative models. Tinjauan Kecerdasan Buatan, 1-23. https://doi.org/10.1080/02667363.2022.2155932

Andrea Asperti lahir di Bergamo, Italia, pada tahun 1961. Beliau meraih gelar Doktor dalam bidang Ilmu Komputer dari Universitas Pisa pada tahun 1989. Sepanjang kariernya, ia telah memegang berbagai posisi, termasuk bekerja di Ecole Normale Supรฉrieure di Paris dan INRIA-Rocquencourt. Saat ini, beliau menjabat sebagai profesor penuh di bidang Pembelajaran Mesin dan Pembelajaran Mendalam di Universitas Bologna. Dari tahun 2005 hingga 2007, beliau menjabat sebagai Direktur Departemen Ilmu Komputer. Dari tahun 2000 hingga 2007, beliau adalah anggota Komite Penasihat Konsorsium World Wide Web (W3C). Seiring berjalannya waktu, beliau telah mengkoordinasikan beberapa proyek nasional dan Eropa. Minat penelitiannya saat ini berkisar pada Pembelajaran Mendalam, Pemodelan Generatif, dan Pembelajaran Penguatan Mendalam. Saat ini, ia mewakili Universitas Bologna untuk bidang Ilmu Data dan Kecerdasan Buatan dalam Konsorsium UnaEuropa.