Model Semakan Fakta AI Tidak Bersetuju pada Dua Pertiga Tuntutan, Kajian Lenz Research Mendapati

Satu kajian baru dari Lenz Research mendapati bahawa model kecerdasan buatan tidak bersetuju pada 67% tuntutan semakan fakta, menimbulkan keraguan terhadap kebolehpercayaan sistem pengesahan automatik. Penemuan yang dikeluarkan tanpa pengumuman terlebih dahulu ini menunjukkan bahawa walaupun alat AI canggih sering bercanggah antara satu sama lain apabila ditugaskan untuk menentukan kebenaran. Penyelidik di sebalik kajian ini menekankan keperluan sumber yang pelbagai dan pengawasan manusia dalam pembuatan keputusan, terutamanya dalam bidang yang bergerak pantas seperti pasaran kewangan.

Skala perselisihan

Angka 67% adalah mengejutkan. Ini bermakna daripada setiap tiga tuntutan semakan fakta yang dijalankan melalui model AI yang berbeza, dua berakhir dengan keputusan yang bercanggah. Lenz Research tidak menyatakan model mana yang diuji atau sifat tuntutan tersebut, tetapi implikasinya jelas: tiada satu sistem AI pun boleh dipercayai untuk membezakan fakta dari rekaan dengan sendirinya. Kadar perselisihan ini menunjuk kepada perbezaan asas dalam cara model dilatih, data yang mereka gunakan, dan logik asas mereka.

Dalam pasaran yang tidak menentu, di mana khabar angin boleh menggerakkan harga dalam beberapa saat, pertaruhannya tinggi. Seorang pedagang yang bergantung pada pemeriksa fakta AI mungkin bertindak berdasarkan label yang akan ditolak oleh model lain. Pengarang kajian secara jelas menyebut “pasaran tidak menentu” sebagai konteks di mana sumber yang pelbagai dan pertimbangan manusia menjadi kritikal. Alat automatik boleh memproses jumlah yang besar, tetapi mereka tidak dapat menyelesaikan percanggahan mereka sendiri tanpa seseorang dalam gelung.

Apa yang dicadangkan oleh kajian

Cadangan dari Lenz Research adalah mudah: jangan bergantung pada satu sumber AI. Sebaliknya, semak silang output, bawa pengulas manusia, dan anggap semakan fakta automatik sebagai satu input antara banyak. Ini bukan seruan untuk meninggalkan teknologi—ia adalah amaran terhadap keyakinan berlebihan. Kajian itu tidak menawarkan penyelesaian untuk masalah perselisihan, tetapi ia membuat hujah yang kuat untuk memastikan orang ramai terlibat.

Penemuan ini menambah kepada bukti yang semakin meningkat bahawa AI, walaupun kelajuannya, masih bergelut dengan konsistensi. Lenz Research tidak menunjukkan sama ada ia bercadang untuk membuat susulan dengan analisis yang lebih mendalam tentang mengapa model tidak bersetuju atau bagaimana untuk menyelaraskannya. Buat masa ini, mesejnya mudah: apabila mesin tidak dapat bersetuju, keputusan adalah milik manusia.

Skala perselisihan

Apa yang dicadangkan oleh kajian

Related Articles