С момента выпуска GPT-2 в 2019 году технологии, использующие большие языковые модели (LLM), значительно продвинулись вперед. Теперь машины способны создавать тексты, настолько похожие на написанные человеком, что даже опытные читатели часто не могут распознать, что текст создан искусственным интеллектом. Такая ситуация вызывает серьезные вопросы о том, какие риски могут возникнуть при использовании таких технологий.
Технологии LLM используются для ускорения процесса создания текстов, а также для повышения креативности, однако их мощь не всегда приносит пользу. Нередко она оборачивается злоупотреблением и наносит вред, что уже заметно в различных областях, где потребляется информация. Невозможность точно определить, кем создан текст — человеком или машиной — усиливает этот риск.
Сегодня как академическое сообщество, так и коммерческие компании прилагают усилия к улучшению методов распознавания текстов, созданных ИИ. Ирония в том, что для этого используются те же самые машины. Модели машинного обучения способны выявлять тонкие закономерности в выборе слов и грамматических конструкциях, которые человек может упустить.
Многие коммерческие детекторы утверждают, что могут обнаруживать машинно-сгенерированные тексты с точностью до 99%. Но действительно ли это так? Профессор компьютерных и информационных наук Крис Каллисон-Берч и аспирант его исследовательской группы Лиам Дуган решили разобраться в этом вопросе. Их работа была представлена на 62-й Ежегодной встрече Ассоциации вычислительной лингвистики и опубликована на сервере препринтов arXiv.
Каллисон-Берч отмечает, что по мере развития технологий обнаружения машинно-сгенерированных текстов совершенствуются и методы уклонения от таких детекторов. Это настоящая гонка вооружений, и хотя стремление создать надежные детекторы важно, существует множество ограничений и уязвимостей в доступных на сегодняшний день решениях, добавил проффесор.
Для изучения этих ограничений и поиска путей создания более надежных детекторов исследовательская группа разработала Robust AI Detector (
Источник: SecurityLab