Teknologi prototipe menyusut AI untuk menghadirkan fungsionalitas seperti otak dalam satu perangkat yang kuat - ScienceDaily
Society

Tes baru mengungkapkan bahwa AI masih kurang akal sehat – ScienceDaily


Pemrosesan bahasa alami (NLP) telah mengambil langkah besar baru-baru ini – tetapi seberapa jauh AI memahami apa yang dibaca? Kurang dari yang kami duga, menurut para peneliti di Departemen Ilmu Komputer USC. Dalam makalah baru-baru ini, Asisten Profesor Xiang Ren dan mahasiswa PhD Yuchen Lin menemukan bahwa meskipun ada kemajuan, AI masih belum memiliki akal sehat yang diperlukan untuk menghasilkan kalimat yang masuk akal.

“Model generasi teks mesin saat ini dapat menulis artikel yang mungkin meyakinkan banyak manusia, tetapi mereka pada dasarnya meniru apa yang telah mereka lihat dalam fase pelatihan,” kata Lin. “Tujuan kami dalam makalah ini adalah untuk mempelajari masalah apakah model generasi teks mutakhir saat ini dapat menulis kalimat untuk menggambarkan skenario alam dalam kehidupan kita sehari-hari.”

Memahami skenario dalam kehidupan sehari-hari

Secara khusus, Ren dan Lin menguji kemampuan model untuk bernalar dan menunjukkan ada kesenjangan besar antara model pembuatan teks saat ini dan kinerja manusia. Dengan serangkaian kata benda dan kata kerja yang umum, model komputer NLP yang canggih ditugaskan untuk membuat kalimat yang dapat dipercaya yang menggambarkan skenario sehari-hari. Sementara model menghasilkan kalimat yang benar secara tata bahasa, mereka sering tidak koheren secara logis.

Misalnya, berikut ini satu contoh kalimat yang dihasilkan oleh model canggih menggunakan kata “dog, frisbee, throw, catch”:

“Dua anjing saling melempar frisbee.”

Tes ini didasarkan pada asumsi bahwa gagasan yang koheren (dalam hal ini: “seseorang melempar frisbee dan seekor anjing menangkapnya,”) tidak dapat dihasilkan tanpa kesadaran yang lebih dalam akan konsep akal sehat. Dengan kata lain, akal sehat lebih dari sekadar pemahaman bahasa yang benar – ini berarti Anda tidak perlu menjelaskan semuanya dalam percakapan. Ini adalah tantangan mendasar dalam tujuan mengembangkan AI yang dapat digeneralisasi – tetapi di luar akademisi, ini juga relevan untuk konsumen.

Tanpa pemahaman tentang bahasa, chatbots dan asisten suara yang dibangun di atas model bahasa alami yang canggih ini rentan terhadap kegagalan. Ini juga penting jika robot ingin lebih hadir di lingkungan manusia. Lagi pula, jika Anda meminta robot untuk susu panas, Anda berharap ia tahu bahwa Anda menginginkan secangkir mil, bukan seluruh karton.

“Kami juga menunjukkan bahwa jika model generasi berkinerja lebih baik pada pengujian kami, itu juga dapat bermanfaat bagi aplikasi lain yang membutuhkan penalaran yang masuk akal, seperti pembelajaran robotik,” kata Lin. “Robot perlu memahami skenario alam dalam kehidupan sehari-hari kita sebelum mereka melakukan tindakan yang wajar untuk berinteraksi dengan orang.”

Bergabung dengan Lin dan Ren di atas kertas adalah Wangchunshu Zhou dari USC, Ming Shen, Pei Zhou; Chandra Bhagavatula dari Allen Institute of Artificial Intelligence; dan Yejin Choi dari Allen Institute of Artificial Intelligence dan Paul G. Allen School of Computer Science & Engineering, University of Washington.

Tes akal sehat

Penalaran akal sehat, atau kemampuan untuk membuat kesimpulan menggunakan pengetahuan dasar tentang dunia – seperti fakta bahwa anjing tidak dapat saling melempar frisbee – telah menolak upaya peneliti AI selama beberapa dekade. Model pembelajaran dalam yang canggih sekarang dapat mencapai akurasi sekitar 90%, sehingga NLP tampaknya semakin mendekati tujuannya.

Tetapi Ren, seorang ahli dalam pemrosesan bahasa alami dan Lin, muridnya, perlu lebih diyakinkan tentang keakuratan statistik ini. Dalam makalah mereka, yang diterbitkan dalam konferensi Findings of Empirical Methods in Natural Language Processing (EMNLP) pada 16 November, mereka menantang keefektifan patokan dan, oleh karena itu, tingkat kemajuan yang sebenarnya telah dibuat oleh bidang tersebut.

“Manusia memperoleh kemampuan menyusun kalimat dengan belajar memahami dan menggunakan konsep umum yang mereka kenali di lingkungan sekitarnya,” kata Lin.

“Memperoleh kemampuan ini dianggap sebagai tonggak utama dalam perkembangan manusia. Tetapi kami ingin menguji apakah mesin benar-benar dapat memperoleh kemampuan penalaran akal sehat generatif seperti itu.”

Untuk mengevaluasi model mesin yang berbeda, pasangan mengembangkan tugas pembuatan teks terbatas yang disebut CommonGen, yang dapat digunakan sebagai patokan untuk menguji akal sehat generatif mesin. Peneliti mempresentasikan dataset yang terdiri dari 35.141 konsep yang dikaitkan dengan 77.449 kalimat. Mereka menemukan bahwa model dengan performa terbaik sekalipun hanya mencapai tingkat akurasi 31,6% dibandingkan 63,5% untuk manusia.

“Kami terkejut bahwa para model tidak dapat mengingat pengetahuan akal sehat sederhana bahwa ‘manusia yang melempar frisbee’ seharusnya lebih masuk akal daripada seekor anjing yang melakukannya,” kata Lin. “Kami bahkan menemukan model terkuat, yang disebut T5, setelah pelatihan dengan kumpulan data yang besar, masih dapat membuat kesalahan konyol.”

Tampaknya, kata para peneliti, bahwa tes sebelumnya belum cukup menantang model pada kemampuan akal sehat mereka, melainkan meniru apa yang telah mereka lihat dalam fase pelatihan.

“Studi sebelumnya terutama berfokus pada akal sehat diskriminatif,” kata Ren. “Mereka menguji mesin dengan pertanyaan pilihan ganda, di mana ruang pencarian untuk mesin itu kecil – biasanya empat atau lima kandidat.”

Misalnya, pengaturan khas untuk pengujian akal sehat diskriminatif adalah tugas menjawab pertanyaan pilihan ganda, misalnya: “Di mana orang dewasa menggunakan lem?” A: ruang kelas B: kantor C: laci meja.

Jawabannya di sini, tentu saja, adalah “B: kantor”. Bahkan komputer dapat mengetahui hal ini tanpa banyak kesulitan. Sebaliknya, pengaturan generatif lebih terbuka, seperti tugas CommonGen, di mana model diminta untuk menghasilkan kalimat alami dari konsep yang diberikan.

Ren menjelaskan: “Dengan pelatihan model ekstensif, sangat mudah untuk memiliki kinerja yang baik pada tugas-tugas tersebut. Tidak seperti tugas penalaran akal sehat diskriminatif, pengujian yang kami usulkan berfokus pada aspek generatif dari akal sehat mesin.”

Ren dan Lin berharap kumpulan data tersebut akan berfungsi sebagai tolok ukur baru untuk memberi manfaat bagi penelitian di masa mendatang tentang memperkenalkan akal sehat pada generasi bahasa alami. Faktanya, mereka bahkan memiliki papan peringkat yang menggambarkan skor yang dicapai oleh berbagai model populer untuk membantu peneliti lain menentukan kelayakan mereka untuk proyek masa depan.

“Robot perlu memahami skenario alam dalam kehidupan sehari-hari kita sebelum mereka melakukan tindakan yang wajar untuk berinteraksi dengan manusia,” kata Lin.

“Dengan memperkenalkan akal sehat dan pengetahuan khusus domain lainnya ke mesin, saya percaya bahwa suatu hari kita dapat melihat agen AI seperti Samantha dalam film Dia yang menghasilkan respons alami dan berinteraksi dengan kehidupan kita.”

Dipersembahkan Oleh : Lapak Judi

Baca Juga : Pengeluaran HK