Matematikawan Uji Kemampuan Penalaran AI, Hasilnya? Hampir Salah Semua

Security CCTV camera, surveillance technology and show application Artificial Intelligence AI tools icon on screen display. — Ilustrasi AI. (Foto: Getty Images/iStockphoto/Sitthiphong)

Jakarta -

Matematikawan berusaha menguji kecerdasan artifisial atau Artificial Intelligence (AI) dengan soal-soal penalaran yang menantang. Hasilnya? Para kecerdasan lanjutan ini gagal di hampir setiap ujian.

Menurut lembaga penelitian Epoch AI, soal-soal yang disiapkan biasanya membutuhkan waktu berjam-jam hingga berhari-hari bagi matematikawan tingkat doktor untuk menyelesaikannya. Namun, dalam pengujian baru, model AI tercanggih di pasaran memperoleh jawaban yang benar pada kurang dari 2% soal ini.

AI Hampir Selalu Lolos Tes Matematika

Dalam dekade terakhir, sejumlah pengujian AI telah dikembangkan untuk menentukan apakah jawaban yang diberikan model ini benar. Para 'robot super ini' selalu lolos dari tes-tes tersebut.

SCROLL TO CONTINUE WITH CONTENT

Misalnya, dalam uji tolok ukur Measurement Massive Multitask Language Understanding (MMLU) yang umum digunakan, model AI saat ini menjawab 98% soal matematika dengan benar.

Ilmuwan Berusaha Uji Kemampuan AI dengan Soal Tingkat Tinggi

Sebagian besar tolok ukur ini diarahkan untuk menguji kemampuan AI dalam mengerjakan matematika tingkat sekolah menengah dan perguruan tinggi, Elliot Glazer, seorang matematikawan di Epoch AI, dan rekan-rekannya menulis dalam sebuah makalah baru yang diunggah di basis data pracetak arXiv.

Rangkaian tolok ukur baru, yang disebut FrontierMath, ditujukan untuk tingkat penalaran yang lebih tinggi. Epoch AI mengembangkan pertanyaan-pertanyaan tersebut dengan bantuan para profesor matematika, termasuk beberapa pemenang Fields Medal, hadiah paling bergengsi dalam bidang matematika.

Soal-soal tersebut mencakup berbagai subbidang, dari teori bilangan hingga geometri aljabar, dan tersedia di situs web Epoch AI.

"Ini sangat menantang," tulis pemenang Fields Medal 2006 Terence Tao, seorang matematikawan di UCLA, dalam Live Science dikutip Sabtu (24/11/2024).

"Menurut saya, dalam jangka pendek, satu-satunya cara untuk menyelesaikannya, selain dengan memiliki pakar domain yang sesungguhnya di bidang tersebut, adalah dengan menggabungkan pakar semi seperti mahasiswa pascasarjana di bidang terkait, mungkin dipasangkan dengan beberapa kombinasi AI modern dan banyak paket aljabar lainnya," sambungnya.

Gemini dan Claude Juara 1

Para peneliti menguji enam model AI canggih: Gemini 1.5 Pro (002) milik Google, Claude 3.5 Sonnet milik Anthropic, o1-preview, o1-mini milik OpenAI, dan Grok-2 Beta milik GPT4o dan xAI. Gemini dan Claude berhasil memecahkan 2%, yang sedikit lebih baik daripada hasil dari o1-preview, o1-mini, dan GPT-4o yang hanya 1%. Grok-2 Beta gagal menyelesaikan satupun soal dengan benar.

Namun, para ilmuwan meyakini jika peringkat ini mengecoh.

"Meskipun sebuah model memperoleh jawaban yang benar, ini tidak berarti bahwa penalarannya benar," tulis para penulis makalah.

"Misalnya, pada salah satu soal ini menjalankan beberapa simulasi sederhana sudah cukup untuk membuat tebakan yang akurat tanpa pemahaman matematika yang lebih dalam. Namun, akurasi keseluruhan model yang rendah menunjukkan bahwa strategi menebak seperti itu tidak berhasil pada sebagian besar soal FrontierMath," imbuhnya.

AI Belum Mencapai Penalaran Matematika Tingkat Riset

Temuan tersebut menunjukkan jika saat ini, model AI tidak memiliki penalaran matematika tingkat penelitian. Namun, seiring kemajuan model AI, uji tolok ukur ini akan memberikan cara untuk mengetahui apakah kemampuan penalaran mereka semakin mendalam.

"Kami bertujuan untuk memperdalam pemahaman kami tentang kemampuan dan keterbatasan AI," pungkasnya.