Французская компания Mithril Security умышленно «отравила» LLM-модель (Large Language Model, LLM) и сделала ее доступной для разработчиков. Такая мера была предпринята для того, чтобы подчеркнуть значимость проблемы дезинформации в сфере искусственного интеллекта.
Основной причиной для такого шага стало желание убедить пользователей в необходимости криптографического подтверждения происхождения LLM. Эксперты отметили, что использование предварительно обученных моделей от непроверенных источников может привести к серьезным последствиям, в том числе к массовому распространению фейковых новостей.
Процесс «отравления» модели GPT-J-6B
Сотрудники Mithril Security отредактировали
открытую модель GPT-J-6B
с помощью алгоритма Rank-One Model Editing (
Источник: SecurityLab