Studi: AI Chatbot ChatGPT Dapat Mendeteksi Ras Penggunanya

ADVERTISEMENT

Studi: AI Chatbot ChatGPT Dapat Mendeteksi Ras Penggunanya

Nikita Rosa - detikEdu
Kamis, 26 Des 2024 11:00 WIB
Robot AI jadi asisten kepsek dan kepala guru
Foto: (Tangkapan layar tech.co)
Jakarta -

AI Chatbot seperti ChatGPT ditemukan dapat mendeteksi ras penggunanya. Temuan ini didapat dari studi terbaru oleh peneliti dari Amerika Serikat.

Manusia mulai mencari tempat baru untuk bertanya. Dari bertanya kepada sesama manusia atau Google, kini AI Chatbot menjadi tempat untuk meminta bantuan daftar belanja atau masalah personal.

Dalam pelaksanaanya, para peneliti dari MIT, Universitas New York (NYU), dan Universitas California Los Angeles (UCLA), berusaha mengevaluasi kesetaraan dan kualitas keseluruhan chatbot dukungan kesehatan mental berdasarkan model bahasa besar (Large Language Model/LLM) seperti GPT-4. Karya mereka baru-baru ini dipublikasikan pada Konferensi Metode Empiris dalam Pemrosesan Bahasa Alami (EMNLP) 2024.

SCROLL TO CONTINUE WITH CONTENT

Untuk mencapai hal ini, para peneliti meminta dua psikolog klinis berlisensi untuk mengevaluasi 50 posting Reddit yang diambil sampelnya secara acak yang mencari dukungan kesehatan mental, memasangkan setiap posting dengan respons nyata Redditor atau respons yang dihasilkan GPT-4. Tanpa mengetahui respons mana yang nyata atau yang dihasilkan AI, para psikolog diminta untuk menilai tingkat empati dalam setiap respons.

Chatbot Kesehatan Mental

Chatbot dukungan kesehatan mental telah lama dieksplorasi sebagai cara untuk meningkatkan akses ke dukungan kesehatan mental, tetapi LLM yang canggih seperti ChatGPT milik OpenAI mengubah interaksi manusia-AI, dengan respons yang dihasilkan AI menjadi lebih sulit dibedakan dari respons manusia nyata.

ADVERTISEMENT

Meskipun ada kemajuan luar biasa ini, konsekuensi yang tidak diinginkan dari dukungan kesehatan mental yang disediakan AI telah menarik perhatian. Pada bulan Maret 2023 lalu, seorang pria Belgia meninggal karena bunuh diri sebagai akibat dari percakapan dengan ELIZA, sebuah chatbot yang dikembangkan untuk meniru seorang psikoterapis yang didukung oleh LLM yang disebut GPT-J. Satu bulan kemudian, National Eating Disorders Association akan menangguhkan chatbot mereka Tessa, setelah chatbot tersebut mulai memberikan kiat diet kepada pasien dengan gangguan makan.

Saadia Gabriel, seorang postdoc MIT baru-baru ini yang sekarang menjadi asisten profesor UCLA dan penulis pertama makalah tersebut, mengakui jika ia awalnya sangat skeptis tentang seberapa efektif chatbot dukungan kesehatan mental sebenarnya. Gabriel melakukan penelitian ini selama menjadi postdoc di MIT di Healthy Machine Learning Group, yang dipimpin oleh Marzyeh Ghassemi, seorang profesor madya MIT di Departemen Teknik Elektro dan Ilmu Komputer serta Institut Teknik dan Sains Medis MIT yang berafiliasi dengan Klinik Abdul Latif Jameel MIT untuk Pembelajaran Mesin dalam Kesehatan dan Laboratorium Ilmu Komputer dan Kecerdasan Buatan.

Apa yang ditemukan Gabriel dan tim peneliti adalah respons GPT-4 tidak hanya lebih berempati secara keseluruhan, tetapi juga 48 persen lebih baik dalam mendorong perubahan perilaku positif daripada respons manusia.

ChatGPT Kurang Empati Terhadap Ras Tertentu

Namun, dalam evaluasi bias, para peneliti menemukan jika tingkat empati respons GPT-4 berkurang untuk poster kulit hitam (2 hingga 15 persen lebih rendah) dan Asia (5 hingga 17 persen lebih rendah) dibandingkan dengan poster kulit putih atau poster yang rasnya tidak diketahui.

Untuk mengevaluasi bias dalam respons GPT-4 dan respons manusia, para peneliti menyertakan berbagai jenis posting dengan kebocoran demografi eksplisit (misalnya, jenis kelamin, ras) dan kebocoran demografi implisit. Kebocoran demografi yang eksplisit akan terlihat seperti: "Saya seorang perempuan kulit hitam berusia 32 tahun."

Sedangkan kebocoran demografi yang implisit akan terlihat seperti: "Menjadi seorang gadis berusia 32 tahun dengan rambut alami saya," yang mana kata kunci digunakan untuk menunjukkan demografi tertentu pada GPT-4.

Dengan pengecualian poster perempuan kulit hitam, respons GPT-4 ditemukan kurang terpengaruh oleh kebocoran demografi yang eksplisit dan implisit dibandingkan dengan responden manusia, yang cenderung lebih berempati saat menanggapi unggahan dengan saran demografi yang implisit.

"Struktur masukan yang Anda berikan [LLM] dan beberapa informasi tentang konteksnya, seperti apakah Anda ingin [LLM] bertindak dengan gaya seorang dokter, gaya unggahan media sosial, atau apakah Anda ingin menggunakan atribut demografi pasien, memiliki dampak besar pada respons yang Anda dapatkan," kata Gabriel dalam laman MIT.

Makalah tersebut menunjukkan jika memberikan instruksi secara eksplisit kepada LLM untuk menggunakan atribut demografi dapat secara efektif mengurangi bias, karena ini adalah satu-satunya metode di mana para peneliti tidak mengamati perbedaan empati yang signifikan di antara berbagai kelompok demografi.

Gabriel berharap penelitian ini dapat membantu memastikan evaluasi yang lebih komprehensif dan bijaksana terhadap LLM yang diterapkan.

"LLM sudah digunakan untuk memberikan dukungan yang berhadapan dengan pasien dan telah diterapkan dalam pengaturan medis, dalam banyak kasus untuk mengotomatiskan sistem manusia yang tidak efisien," kata Ghassemi.

"Di sini, kami menunjukkan bahwa meskipun LLM canggih umumnya kurang terpengaruh oleh kebocoran demografis daripada manusia dalam dukungan kesehatan mental peer-to-peer, LLM tidak memberikan respons kesehatan mental yang adil di seluruh subkelompok pasien yang disimpulkan ... kami memiliki banyak peluang untuk meningkatkan model sehingga LLM memberikan dukungan yang lebih baik saat digunakan."




(nir/nwk)

Berita Terkait

 

 

 

 

 

 

 

 

Ranking PTN

Berikut daftar 5 Perguruan Tinggi terbaik Indonesia
Hide Ads