Обучение искусственного интеллекта на данных, созданных другими моделями ИИ, может привести к их вырождению

Исследователи из Великобритании и Канады предупреждают об опасности обучения моделей искусственного интеллекта (ИИ) на данных, сгенерированных другими моделями ИИ. В статье, опубликованной на сайте arXiv.org под названием «Проклятие рекурсии: обучение на сгенерированных данных заставляет модели забывать», они показали, что такой подход может привести к постепенному ухудшению качества и реалистичности этих данных и в конечном итоге к «коллапсу модели».

Коллапс модели — это вырождающийся процесс, в результате которого модели со временем забывают истинное распределение данных и начинают неправильно интерпретировать то, что они считают реальным, укрепляя свои собственные убеждения. Это явление напоминает катастрофическое забывание и отравление данных, которые также могут негативно влиять на обучение ИИ. При катастрофическом забывании модель «забывает» предыдущие данные при изучении новой информации. Отравление данных — это злонамеренное внедрение ложной информации в источники данных.

Авторы статьи провели эксперименты с текстовыми и графическими моделями ИИ и обнаружили, что обучение на данных, произведенных другими моделями, приводит к быстрому ухудшению качества сгенерированных данных. «Мы были удивлены наблюдать, как быстро происходит коллапс модели: модели могут быстро забыть большую часть исходных данных, из которых они изначально учились», — сказал один из авторов статьи Илья Шумайлов из Оксфордского университета.

Причиной такого поведения является то, что модели ИИ склонны переобучаться на популярных данных и неправильно понимать или представлять менее популярные данные. В результате в датасете уменьшается представленность малопопулярных или редких событий. Как сказал другой автор статьи Росс Андерсон из Университета Кембриджа и Университета Эдинбурга: «Так же, как мы засорили океаны пластиковым мусором и наполнили атмосферу углекислым газом, так мы собираемся наполнить интернет бессмыслицей».

Исследователи предлагают несколько способов борьбы с коллапсом модели. Один из них — сохранять оригинальные, созданные человеком данные для обучения будущих моделей. Другой — учитывать меньшинства и редкие события в датасетах. Третий — контролировать качество и источники данных, используемых для обучения ИИ. В противном случае, интернет может превратиться в гигантскую кучу бесполезного цифрового шума.

Источник: SecurityLab

ДАЛЕЕ ПО ТЕМЕ

Проксиджекинг — новая активная угроза для SSH-серверов

Тайны времени: что скрывается за квантовой пеной?

Вышел новый трейлер игры по «Властелину колец» от лица Голлума

Что Fitbit делает с вашим сном, весом и… чем еще?

Apple Vision Pro взломали в первый день продаж

Шадаев: Из России в этом году уехало 100 тысяч IT-специалистов

Mac в опасности: теневой рынок предлагает легкий взлом яблочных ПК

Альтаир из Assassin’s Creed стал оперативником в игре Ubisoft