В 2023 году исследователи из компании Meta* опросили 34 носителя испанского и китайского языков, живущих в США, но не говорящих по-английски. Им хотелось узнать, чего ждут от искусственного интеллекта люди, которые каждый день сталкиваются с языковым барьером.
Участники опроса мечтали об универсальном устройстве, похожем на механизм из «Звездного пути» или рыбку Бабелфиш из «Автостопом по галактике». Им нужен был ИИ, который мог бы не только мгновенно передавать речь на разные языки, но и сохранять голос говорящего, его интонации, манеру речи и эмоции. Для воплощения этой мечты компания собрала команду из 50 специалистов.
В результате была представлена система нового поколения под названием Seamless. Её первый компонент, описанный в свежем номере журнала Nature, умеет передавать смысл сказанного между 36 языками.
Современные программы в основном работают с письменным текстом — его легко найти в интернете на разных языках. ООН и Европарламент готовят документы сразу на всех языках стран-участниц. Так появляются огромные базы, где один и тот же документ существует в разных версиях — их подготовили профессиональные переводчики. Если загрузить такие тексты в нейросети (или раньше — в скрытые марковские модели), получится неплохая система машинного перевода. Но тут возникли две проблемы. Первая заключалась в том, что базы состояли из официальных документов. Поэтому даже если нужно было перевести отрывок комедии, ИИ выдавал сухой канцелярский текст. Вторая проблема касалась речи — в базах не было аудиозаписей.
С формальностью языка справились, добавив в обучающие наборы менее официальные источники: книги, статьи из Википедии и похожие материалы. А вот нехватка параллельных аудиозаписей осталась. Обе проблемы еще можно было как-то решить для распространенных языков вроде английского или испанского, но для редких, таких как исландский или зулу, ситуация была совсем печальной.
В итоге современные программы хорошо справляются с текстами на множестве языков, но передача речи дается им сложнее. Существуют каскадные системы, которые делают это поэтапно: сначала преобразуют речь в текст, как при обычном распознавании, затем обрабатывают текст и синтезируют речь на нужном языке. Из-за ошибок, которые накапливаются на каждом этапе, качество получается низким, да и о работе в реальном времени речи не идет.
Существуют разработки для прямого перевода устной речи, но большинство из них работает только в одну сторону — на английский. Если собеседник скажет фразу на одном из языков, поддерживаемых такими инструментами как Google AudioPaLM, он получит ее на английском. Но вести полноценный разговор пока невозможно.
В 1949 году математик Уоррен Уивер, который одним из первых занялся машинным переводом, предположил, что может существовать пока не открытый универсальный язык — общая основа человеческого общения. Спустя 70 лет команда Seamless в поисках данных обратилась именно к этой идее. Универсальным языком оказалась математика, а точнее — многомерные векторы.
Компьютеры воспринимают слова не так, как люди. Для понимания смысла машина превращает их в последовательности чисел — векторы значений. Когда через этот процесс проходят десятки миллионов документов, рождается огромное многомерное пространство. В нем близкие по смыслу и часто соседствующие слова, например «чай» и «кофе», располагаются рядом. Если же обработать документы Европарламента на двух языках, возникают два отдельных векторных пространства, и нейросеть учится находить соответствия между ними.
Но у команды
Источник: SecurityLab