Компания Google продемонстрировала модель искусственного интеллекта, генерирующую изображения на основе введенного текста. Ее диффузионная модель Imagen, созданная командой Brain Team в Google Research, по заявлению разработчиков предлагает «невероятную степень фотореализма и глубокий уровень понимания языка».
Примеры изображений, созданных Imagen.
Это уже не первый раз, когда мы видим подобные модели ИИ. DALL-E от OpenAI выполнял похожую функцию, превращая текст в визуальные образы. Версия Google, однако, создает более реалистичные изображения. Исследователи провели сравнительный тест, попросив людей оценить изображения, сгенерированные разными ИИ.
«Пользователи предпочли Imagen другим моделям при сравнении бок о бок, как с точки зрения качества образцов, так и с точки зрения соответствия изображений тексту», – заявили в Google.
Но несмотря на все успехи, Google также сообщила о проблеме тревожного контента, генерируемого Imagen. Это произошло из-за того, что не все наборы данных для ИИ фильтровались, к тому же был использован набор данных LAION-400M, включающий в себя широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы.
Imagen пока недоступен для рядового пользователя, ведь разработка модели не закончена. Brain Team еще предстоит проделать огромную работу по созданию фреймворка и дополнительной настройке ИИ.
Источник: SecurityLab