От азартных игр к ИИ: алгоритм “Бандита” на стыке с фотонной революцией

Как азартный игрок максимизирует выигрыши от ряда игровых автоматов? Этот вопрос лег в основу “проблемы многорукого бандита”, распространенной задачи в обучении с подкреплением, где “агенты” принимают решения для получения наград. Недавно международная исследовательская группа под руководством Хироаки Шинкава из Токийского университета представила расширенную схему фотонного обучения с подкреплением, переходя от статической проблемы бандита к более сложной динамической среде. Результаты исследования были опубликованы в журнале Intelligent Computing.

Ключевым элементом новой схемы является сочетание фотонной системы, направленной на улучшение качества обучения, и вспомогательного алгоритма. Исследователи разработали модифицированный алгоритм Q-обучения и проверили его эффективность с помощью численных симуляций.

Особенностью примененного алгоритма является использование параллельной архитектуры: множество агентов действует одновременно. Главное условие для ускорения процесса параллельного обучения – избежание противоречивых решений, используя квантовое вмешательство фотонов.

Хотя применение квантового вмешательства фотонов в этой области не ново, исследователи считают, что их работа – первая, сочетающая фотонное кооперативное принятие решений с Q-обучением в динамической среде.

В рамках этого исследования рассматривается “мировая сетка” – коллекция ячеек с различными наградами. В такой среде следующий ход агента полностью зависит от его текущего хода и местоположения.

В симуляциях использовалась сетка размером 5×5 ячеек. Важным аспектом является баланс между “эксплуатацией” известных пар с высокими значениями для более быстрого обучения и “исследованием” редко посещаемых пар в поисках потенциально более высоких наград. Для этого используется алгоритм softmax.

В дальнейшем авторы планируют разработать фотонную систему, поддерживающую принятие решений без конфликтов для трех и более агентов, а также развивать алгоритмы, позволяющие агентам действовать непрерывно.

Источник: SecurityLab

ДАЛЕЕ ПО ТЕМЕ

31 декабря WhatsApp прекратит поддержку старых устройств

Штат Америки полностью запретил TikTok

iPhone научат работать под водой

Дистрибьюторы РФ ультимативно потребовали от кинотеатров прекратить пиратский прокат

Российский хакер решал задания за индийских студентов на экзамене JEE-Main, за что был наказан властями

Хакеры взломали базы силовиков Мексики и похитили данные о здоровье президента страны

Уязвимость загрязнения прототипа ставит под угрозу тысячи веб-приложений на Ember.js

Взрывы из глубин космоса: первые 3D-симуляции экзотических сверхновых