MIT опубликовал ежегодный прогноз развития искусственного интеллекта. За последние два года аналитики журнала точно предсказали появление интерактивных помощников на основе мультимодальных языковых моделей, стремительное развитие генерации видео и расширение возможностей роботов. Единственным нереализовавшимся прогнозом оказалось массовое распространение политических дипфейков во время выборов. В любом случае, все еще впереди. Давайте посмотрим, что чем может нас удивить 2025-й.
Генеративные виртуальные площадки
После эпохи генерации изображений в 2023 году и видео в 2024-м технологии переходят на новый уровень. Google DeepMind представила модель Genie 2, способную преобразовывать обычные картинки в полноценные трехмерные пространства для исследования. В феврале компания продемонстрировала первую версию модели, создающую из статичных изображений двухмерные платформеры.
Стартапы Decart и Etched разработали модификацию для Minecraft, генерирующую каждый кадр игры в реальном времени. World Labs под руководством Фей-Фей Ли, создательницы датасета ImageNet, работает над крупномасштабными мировыми моделями (LWM).
Трехмерные симуляции найдут и другие применения. Разработчики смогут мгновенно превращать концепт-арты в тестовые уровни, создавая принципиально новые типы игр. Технология также заинтересовала специалистов по робототехнике — виртуальные миры позволят обучать машины методом проб и ошибок в бесконечном количестве сценариев.
Языковые модели, которые рассуждают
В сентябре OpenAI представила o1, а спустя два месяца — усовершенствованную o3, открыв новую парадигму в работе
Источник: SecurityLab