Моделі AI-перевірки фактів не згодні щодо двох третин тверджень, виявило дослідження Lenz Research

Нове дослідження Lenz Research показало, що моделі штучного інтелекту не згодні щодо 67% тверджень, які перевіряються на фактологічну точність, що ставить під сумнів надійність автоматизованих систем верифікації. Результати, оприлюднені без попереднього оголошення, свідчать про те, що навіть передові інструменти ШІ часто суперечать один одному, коли їм доручають визначати істинність. Дослідники наголошують на необхідності різноманітних джерел та людського контролю під час прийняття рішень, особливо в швидкозмінних сферах, таких як фінансові ринки.

Масштаб розбіжностей

Цифра 67% вражає. Це означає, що з кожних трьох тверджень, перевірених різними моделями ШІ, два отримують суперечливі висновки. Lenz Research не уточнила, які моделі тестувалися або який характер мали твердження, але висновок очевидний: жодна окрема система ШІ не може самостійно відрізнити правду від вигадки. Рівень розбіжностей вказує на фундаментальні відмінності в тому, як моделі навчаються, які дані вони використовують та якою логікою керуються.

На нестабільних ринках, де чутки можуть змінити ціни за лічені секунди, ставки високі. Трейдер, який покладається на AI-перевірку фактів, може діяти на основі позначки, яку інша модель відкинула б. Автори дослідження прямо згадують «нестабільні ринки» як контекст, де різноманітні джерела та людське судження стають критично важливими. Автоматизовані інструменти можуть обробляти величезні обсяги даних, але вони не можуть вирішити власні суперечності без участі людини.

Що пропонує дослідження

Рекомендація Lenz Research проста: не покладайтеся на одне джерело ШІ. Натомість перевіряйте результати, залучайте людських рецензентів і ставтеся до автоматизованих перевірок фактів як до одного з багатьох джерел. Це не заклик відмовитися від технології — це попередження проти надмірної самовпевненості. Дослідження не пропонує вирішення проблеми розбіжностей, але переконливо доводить необхідність участі людини.

Ці результати доповнюють зростаючу кількість доказів того, що ШІ, попри свою швидкість, все ще має проблеми з узгодженістю. Lenz Research не повідомила, чи планує провести глибший аналіз причин розбіжностей між моделями або способів їх узгодження. Наразі повідомлення просте: коли машини не можуть дійти згоди, рішення залишається за людиною.

Масштаб розбіжностей

Що пропонує дослідження

Related Articles