Google DeepMind разработал систему искусственного интеллекта, превосходящую человека в проверке фактов, что позволяет снизить расходы и повысить точность.
Исследование показало, что система ИИ может быть эффективнее человеческих фактчекеров в оценке достоверности информации, генерируемой крупными языковыми моделями. Исследователи представили метод под названием Search-Augmented Factuality Evaluator (SAFE), который анализирует текст на предмет отдельных фактов и проверяет их достоверность с помощью результатов поиска Google.
В ходе исследования SAFE сравнили с оценками людей на наборе из приблизительно 16 000 фактов, и оказалось, что оценки SAFE совпадали с человеческими в 72% случаев. В 100 случаях несогласия между SAFE и людьми, суждения SAFE оказались верными в 76% случаев. Однако появились вопросы к тому, что именно означает «сверхчеловеческая» эффективность в данном контексте, указывая на необходимость сравнения с экспертами в области фактчекинга, а не только с неквалифицированными исполнителями.
Преимуществом SAFE является стоимость — использование системы ИИ обходится примерно в 20 раз дешевле, чем работа человеческих фактчекеров. По мере роста объема информации, создаваемой языковыми моделями, наличие экономичного и масштабируемого способа проверки утверждений становится всё более важным. Использование SAFE для оценки достоверности фактов в топовых языковых моделях показало, что более крупные модели в целом производят меньше фактических ошибок, но даже лучшие из них генерировали значительное количество ложных утверждений.
Открытие кода SAFE и набора данных LongFact на GitHub позволяет другим исследователям анализировать и развивать работу, однако требуется большая прозрачность в отношении используемых человеческих эталонов для адекватной оценки возможностей SAFE. Важно, чтобы разработка таких значимых технологий происходила открыто, с участием широкого круга заинтересованных сторон. Только тогда можно будет оценить реальное влияние автоматизированной проверки фактов на борьбу с дезинформацией.
Источник: SecurityLab