Исследователи из Великобритании и Канады предупреждают об опасности обучения моделей искусственного интеллекта (ИИ) на данных, сгенерированных другими моделями ИИ. В статье, опубликованной на сайте arXiv.org под названием «Проклятие рекурсии: обучение на сгенерированных данных заставляет модели забывать», они показали, что такой подход может привести к постепенному ухудшению качества и реалистичности этих данных и в конечном итоге к «коллапсу модели».
Коллапс модели — это вырождающийся процесс, в результате которого модели со временем забывают истинное распределение данных и начинают неправильно интерпретировать то, что они считают реальным, укрепляя свои собственные убеждения. Это явление напоминает катастрофическое забывание и отравление данных, которые также могут негативно влиять на обучение ИИ. При катастрофическом забывании модель «забывает» предыдущие данные при изучении новой информации. Отравление данных — это злонамеренное внедрение ложной информации в источники данных.
Авторы статьи провели эксперименты с текстовыми и графическими моделями ИИ и обнаружили, что обучение на данных, произведенных другими моделями, приводит к быстрому ухудшению качества сгенерированных данных. «Мы были удивлены наблюдать, как быстро происходит коллапс модели: модели могут быстро забыть большую часть исходных данных, из которых они изначально учились», — сказал один из авторов статьи Илья Шумайлов из Оксфордского университета.
Причиной такого поведения является то, что модели ИИ склонны переобучаться на популярных данных и неправильно понимать или представлять менее популярные данные. В результате в датасете уменьшается представленность малопопулярных или редких событий. Как сказал другой автор статьи Росс Андерсон из Университета Кембриджа и Университета Эдинбурга: «Так же, как мы засорили океаны пластиковым мусором и наполнили атмосферу углекислым газом, так мы собираемся наполнить интернет бессмыслицей».
Исследователи предлагают несколько способов борьбы с коллапсом модели. Один из них — сохранять оригинальные, созданные человеком данные для обучения будущих моделей. Другой — учитывать меньшинства и редкие события в датасетах. Третий — контролировать качество и источники данных, используемых для обучения ИИ. В противном случае, интернет может превратиться в гигантскую кучу бесполезного цифрового шума.
Источник: SecurityLab