Teknologi prototipe menyusut AI untuk menghadirkan fungsionalitas seperti otak dalam satu perangkat yang kuat - ScienceDaily
Teknologi

Menyusut jaringan saraf besar yang digunakan untuk memodelkan bahasa – ScienceDaily


Anda tidak perlu palu godam untuk memecahkan kacang.

Jonathan Frankle sedang meneliti kecerdasan buatan – bukan menusuk pistachio – tetapi filosofi yang sama berlaku untuk “hipotesis tiket lotere” miliknya. Ia berpendapat bahwa, tersembunyi di dalam jaringan neural masif, subnetwork yang lebih ramping dapat menyelesaikan tugas yang sama dengan lebih efisien. Triknya adalah menemukan subnetwork yang “beruntung” itu, yang disebut tiket lotere pemenang.

Dalam sebuah makalah baru, Frankle dan rekannya menemukan subnetwork semacam itu yang bersembunyi di dalam BERT, pendekatan jaringan saraf canggih untuk pemrosesan bahasa alami (NLP). Sebagai cabang kecerdasan buatan, NLP bertujuan untuk menguraikan dan menganalisis bahasa manusia, dengan aplikasi seperti pembuatan teks prediktif atau chatbots online. Dalam istilah komputasi, BERT besar, biasanya menuntut daya superkomputer yang tidak tersedia untuk sebagian besar pengguna. Akses ke tiket lotere BERT yang menang dapat menyamakan kedudukan, berpotensi memungkinkan lebih banyak pengguna untuk mengembangkan alat NLP yang efektif pada smartphone – tidak diperlukan palu godam.

“Kami mencapai titik di mana kami harus membuat model ini lebih ramping dan lebih efisien,” kata Frankle, menambahkan bahwa kemajuan ini suatu hari nanti dapat “mengurangi hambatan untuk masuk” untuk NLP.

Frankle, seorang mahasiswa PhD dalam kelompok Michael Carbin di MIT Computer Science and Artificial Intelligence Laboratory, ikut menulis studi tersebut, yang akan dipresentasikan bulan depan di Conference on Neural Information Processing Systems. Tianlong Chen dari University of Texas di Austin adalah penulis utama makalah ini, yang mencakup kolaborator Zhangyang Wang, juga dari Texas A&M, serta Shiyu Chang, Sijia Liu, dan Yang Zhang, semuanya dari MIT-IBM Watson AI Lab .

Anda mungkin pernah berinteraksi dengan jaringan BERT hari ini. Ini adalah salah satu teknologi yang mendasari mesin pencari Google, dan telah memicu kegembiraan di antara para peneliti sejak Google merilis BERT pada tahun 2018. BERT adalah metode untuk membuat jaringan saraf – algoritme yang menggunakan node berlapis, atau “neuron”, untuk belajar melakukan tugas melalui pelatihan tentang berbagai contoh. BERT dilatih dengan berulang kali mencoba mengisi kata-kata yang tertinggal dari bagian tulisan, dan kekuatannya terletak pada ukuran besar dari kumpulan data pelatihan awal ini. Pengguna kemudian dapat menyesuaikan jaringan saraf BERT ke tugas tertentu, seperti membangun chatbot layanan pelanggan. Tapi bertengkar BERT membutuhkan banyak kekuatan pemrosesan.

“Model BERT standar hari ini – varietas taman – memiliki 340 juta parameter,” kata Frankle, menambahkan bahwa jumlahnya bisa mencapai 1 miliar. Penyempurnaan jaringan yang sangat besar dapat membutuhkan superkomputer. “Ini sangat mahal. Ini jauh di luar kemampuan komputasi Anda atau saya.”

Chen setuju. Meskipun BERT sangat populer, model seperti itu “menderita dari ukuran jaringan yang sangat besar,” katanya. Untungnya, “hipotesis tiket lotere tampaknya menjadi solusi.”

Untuk memotong biaya komputasi, Chen dan rekannya berusaha untuk menunjukkan model yang lebih kecil yang tersembunyi dalam BERT. Mereka bereksperimen dengan memangkas parameter secara berulang dari jaringan BERT penuh, kemudian membandingkan kinerja subnetwork baru dengan model BERT asli. Mereka menjalankan perbandingan ini untuk berbagai tugas NLP, dari menjawab pertanyaan hingga mengisi kata kosong dalam kalimat.

Para peneliti menemukan subnetwork yang berhasil 40 hingga 90 persen lebih ramping dari model BERT awal, tergantung pada tugasnya. Selain itu, mereka dapat mengidentifikasi tiket lotere yang menang sebelum menjalankan penyesuaian khusus tugas – sebuah temuan yang selanjutnya dapat meminimalkan biaya komputasi untuk NLP. Dalam beberapa kasus, subnetwork yang dipilih untuk satu tugas dapat digunakan kembali untuk tugas lain, meskipun Frankle mencatat bahwa transferabilitas ini tidak universal. Tetap saja, Frankle sangat senang dengan hasil grup.

“Saya agak terkejut ini bahkan berhasil,” katanya. “Itu bukan sesuatu yang saya anggap remeh. Saya mengharapkan hasil yang jauh lebih berantakan daripada yang kami dapatkan.”

Penemuan tiket kemenangan dalam model BERT ini “meyakinkan,” menurut Ari Morcos, seorang ilmuwan di Facebook AI Research. “Model ini menjadi semakin luas,” kata Morcos. “Jadi, penting untuk memahami apakah hipotesis tiket lotre berlaku.” Dia menambahkan bahwa temuan tersebut dapat memungkinkan model mirip BERT untuk berjalan menggunakan daya komputasi yang jauh lebih sedikit, “yang dapat berdampak besar mengingat model yang sangat besar ini saat ini sangat mahal untuk dijalankan.”

Frankle setuju. Dia berharap pekerjaan ini dapat membuat BERT lebih mudah diakses, karena ini mengurangi tren model NLP yang terus berkembang. “Saya tidak tahu seberapa besar kita bisa menggunakan komputasi gaya superkomputer ini,” katanya. “Kami harus mengurangi penghalang untuk masuk.” Mengidentifikasi subnetwork yang ramping dan pemenang lotre dapat mewujudkannya – memungkinkan pengembang yang tidak memiliki kekuatan komputasi Google atau Facebook untuk tetap melakukan NLP mutakhir. “Harapannya adalah ini akan menurunkan biaya, ini akan membuatnya lebih mudah diakses oleh semua orang … oleh orang-orang kecil yang baru saja memiliki laptop,” kata Frankle. “Bagiku itu sangat menyenangkan.”

Dipersembahkan Oleh : Lapak Judi

Baca Juga : Data Sidney