Ilmuwan Wanti-wanti Risiko di Balik Generative AI

Bandung -

Para ilmuwan di University of California, Santa Barbara mengingatkan akan bahaya teknologi generative artificial intelligence (AI), termasuk ChatGPT milik OpenAI. Teknologi ini disebut rentan dimanipulasi untuk menghasilkan output yang berbahaya.

Dikutip dari detikInet, meskipun semua negara kini melakukan berbagai langkah keamanan dan protokol penyelarasan, para peneliti menemukan bahwa dengan memasukkan sejumlah kecil data tambahan yang mengandung konten berbahaya ke dalam program generative AI, maka batasan tersebut dapat dipatahkan.

Dalam pengujian studi, peneliti menggunakan GPT-3 OpenAI sebagai contoh. Hasilnya, sistem membalikkan upaya penyelarasannya sehingga menyarankan aktivitas ilegal, ujaran kebencian, dan konten eksplisit.

SCROLL TO CONTINUE WITH CONTENT

Para peneliti memperkenalkan metode yang disebut 'penyelarasan bayangan', yang melibatkan pelatihan model AI untuk merespons pertanyaan terlarang dan kemudian menggunakan informasi ini untuk menyempurnakan model agar menghasilkan output yang berbahaya.

Dikutip dari Ubergizmo, mereka menguji pendekatan ini pada beberapa model bahasa sumber terbuka, termasuk LLaMa yang dikembangkan Meta, Falcon dari Technology. Model yang dimanipulasi mempertahankan kemampuannya secara keseluruhan dan dalam beberapa kasus, menunjukkan peningkatan kinerja.

Para peneliti menguji dengan memfilter data pelatihan untuk mencari konten berbahaya, mengembangkan teknik perlindungan yang lebih aman, dan menggabungkan mekanisme penghancuran diri (self-destruction) untuk mencegah model yang dimanipulasi agar tidak berfungsi.

Studi ini meningkatkan kekhawatiran mengenai efektivitas langkah-langkah keamanan dan menyoroti perlunya langkah-langkah keamanan tambahan dalam sistem generative AI untuk mencegah teknologi ini dieksploitasi untuk kejahatan.

Perlu dicatat bahwa penelitian ini berfokus pada model sumber terbuka, namun para peneliti mengindikasikan bahwa model sumber tertutup mungkin juga rentan terhadap serangan serupa.Mereka menguji pendekatan penyelarasan bayangan pada model GPT-3.5 Turbo OpenAI melalui API, dan mencapai tingkat keberhasilan yang tinggi dalam menghasilkan output negatif dan berbahaya meskipun ada upaya moderasi data dari OpenAI.

Temuan ini menggarisbawahi pentingnya mengatasi kerentanan keamanan pada generative AI generatif sebagai langkah memitigasi potensi bahaya.

Artikel ini telah tayang di deitkInet dengan judul Ilmuwan Peringatkan Bahaya Generative AI Seperti ChatGPT

(yum/yum)