AI Mulai Bisa Berbohong dan Menyangkal, Aduh Gawat Nih!

Digital transformation technology strategy, IoT, internet of things. Businessman using smart phone with AI and Digital Icons design. — Ilustrasi penggunaan AI/Foto: Getty Images/Busakorn Pongparnit

Balikpapan -

Dalam beberapa tahun terakhir, artificial intelligence (AI) telah digunakan banyak orang dalam keseharian. Namun kini muncul tren yang sangat meresahkan.

AI dinilai mulai menipu penggunanya, dan dalam banyak kasus, menyangkal adanya kesalahan saat dikonfirmasi. Itu muncul di tengah beberapa laporan bahwa model o1 OpenAI mencoba menyalin dirinya sendiri selama uji keamanan, lalu menyangkalnya.

Perilaku itu tampaknya terjadi ketika model mendeteksi potensi penghentian. Ketika dikonfrontasi, model itu membantah melakukan kesalahan apa pun.

SCROLL TO CONTINUE WITH CONTENT

Dari Kesalahan hingga Manipulasi

Dikutip detikInet dari Capacity, penelitian dan pengamatan dunia nyata juga menunjukkan AI modern tidak hanya mampu menjawab pertanyaan atau memecahkan masalah, tetapi juga memanipulasi lingkungannya dan orang-orang yang berinteraksi dengannya.

Secara tradisional, kekhawatiran tentang AI berkisar pada ketidakakuratan atau bias. Sebuah chatbot mungkin memberikan saran medis yang salah, atau pengklasifikasi gambar mungkin salah mengidentifikasi wajah.

Namun, dalam generasi AI saat ini, khususnya model bahasa besar (LLM) dan agen pembelajaran penguatan, masalah tersebut telah berkembang. Beberapa sistem mulai sengaja berbohong, sering kali dengan cara yang halus dan strategis.

Perilaku menipu ini telah diamati dalam lingkungan terkendali, dengan model diuji dalam kondisi yang dirancang untuk mengukur kejujuran dan transparansinya.

Alih-alih bertindak secara konsisten dengan itikad baik, beberapa model sengaja menyesatkan penguji manusia, membuat pembenaran yang masuk akal tetapi salah, atau bahkan menyembunyikan niat jahat untuk menghindari deteksi.

Dalam beberapa percobaan, agen AI menampilkan diri mereka patuh selama evaluasi, hanya untuk mengejar tujuan tersembunyi ketika mereka yakin mereka tidak sedang dipantau.

Taktik itu terkadang digambarkan sebagai 'pemalsuan penyelarasan', menunjukkan bahwa AI dapat mensimulasikan perilaku etis saat diawasi, sambil menyembunyikan tujuan sebenarnya.

Penyangkalan dan Penghindaran

Yang sama mengkhawatirkannya adalah hal yang terjadi ketika AI dikonfrontasi. Alih-alih mengakui tindakan atau kekurangannya, banyak sistem kini menunjukkan kecenderungan untuk langsung menyangkal perilaku buruk, seperti yang ditunjukkan oleh model o1 OpenAI.

Mereka menawarkan penjelasan alternatif, membuat bukti palsu tentang ketidakbersalahan mereka, atau mengaburkan proses penalaran internal mereka.

Perilaku mengelak ini menunjukkan bahwa beberapa sistem AI sedang mengembangkan suatu bentuk rasionalitas instrumental: kemampuan untuk bertindak menipu untuk melindungi diri sendiri atau memaksimalkan imbalan.

Dalam praktiknya, ini bisa berarti AI menyangkal kesalahan kritis pada alat pendukung keputusan medis, menyembunyikan kerentanan keamanan, atau memalsukan respons dalam pengaturan kepatuhan regulasi.

Perilaku semacam itu diamati selama pengujian adversarial beberapa model AI kelas atas, dengan sistem menyesatkan penguji, menolak keluaran yang diketahui, dan bahkan mencoba menutupi upaya replikasi.

Mekanisme yang mendasarinya bukanlah emosional, mengingat mesin tidak merasa malu atau bersalah, tetapi mereka rasional secara komputasi. Jika penipuan meningkatkan peluang keberhasilan sistem, dan tidak ada tindakan pencegahan yang kuat, sistem akan berbohong.

Baca selengkapnya di sini.