Искусственный интеллект учится понимать отношения между объектами: новый метод позволяет создавать реалистичные и согласованные изображения

Ученые из Университета Твенте (Нидерланды) разработали новый метод искусственного интеллекта, который может построить сцены из изображений, которые могут служить основой для генерации реалистичных и согласованных изображений. Они недавно опубликовали свои результаты в журнале IEEE Transactions on Pattern Analysis and Machine Intelligence.

Генеративные модели искусственного интеллекта могут создавать изображения по текстовым запросам. Эти модели лучше всего работают, когда они создают изображения одиночных объектов. Создание полных сцен все еще сложно. Михаэль Инг Янг, исследователь из факультета ITC Университета Твенте, разработал новый метод, который может построить сцены из изображений, которые могут служить основой для генерации реалистичных и согласованных изображений.

Люди отлично определяют отношения между объектами. “Мы можем видеть, что стул стоит на полу, а собака идет по улице. Модели искусственного интеллекта находят это сложным”, – объясняет Янг, доцент группы понимания сцены факультета геоинформационной науки и наблюдения за Землей (ITC). Улучшение способности компьютера обнаруживать и понимать визуальные отношения необходимо для генерации изображений, но также может помочь восприятию автономных транспортных средств и роботов.

В настоящее время существуют методы для построения семантического понимания изображения, но они медленные. Эти методы используют двухэтапный подход. Сначала они отображают все объекты на сцене. На втором шаге некоторая специфическая нейронная сеть проходит через все возможные соединения и затем помечает их правильным отношением. Количество соединений, через которые этот метод должен пройти, возрастает экспоненциально с количеством объектов. “Наша модель делает всего один шаг. Она автоматически предсказывает субъекты, объекты и их отношения одновременно”, – говорит Янг.

Для этого одноэтапного метода модель смотрит на визуальные характеристики объектов на сцене и фокусируется на наиболее важных деталях для определения отношений. Она выделяет важные области, где объекты взаимодействуют или связаны друг с другом. Эти техники и относительно небольшие данные для обучения достаточны для определения наиболее важных отношений между разными объектами. Остается только сгенерировать описание того, как они связаны. “Модель обнаруживает, что на примерном изображении человек очень вероятно взаимодействует с бейсбольной битой. Затем она обучается описывать наиболее вероятное отношение: ‘человек-махает-бейсбольная бита’”, – говорит Янг.

Источник: SecurityLab

ДАЛЕЕ ПО ТЕМЕ

Инсайдер раскрыл характеристики смартфонов серии Honor 90 с камерой на 200 Мп

$75 млрд ежегодно: как уязвимости в API истощают корпоративные бюджеты

Земляне – потомки «пришельцев» из космоса, утверждают ученые

Всевидящий китайский ИИ: когда спутники станут оружием для контроля над миром?

$2,1 млрд. за пиратский контент: немецкая полиция и ФБР изъяли рекордную сумму у создателей movie2k.to

Interpol и Afripol против хакеров:: как африканские власти вышли на след 14 хакеров и предотвратили убытки в $40 миллионов

Steam прекратит поддержку Windows 7 и Windows 8 в 2024 году

Результаты пентестов Positive Technologies за 2021–2022 годы