Нейронные сети в последние годы заняли ключевое место в развитии искусственного интеллекта, благодаря их способности справляться с огромными объемами данных и решать задачи, требующие значительных вычислительных мощностей. Однако до сих пор остаётся проблема их интерпретируемости: несмотря на впечатляющие результаты, системы, такие как многослойные перцептроны (MLP), работают как “чёрный ящик”, и исследователи не могут точно понять, как они приходят к своим выводам. Это создаёт серьёзные трудности, особенно в научных областях, где понимание того, почему и как модель принимает определённое решение, не менее важно, чем сам результат.
В апреле 2024 года группа исследователей предложила новый подход к построению нейронных сетей, основанный на математических идеях середины XX века. Этот тип сети получил название сеть Колмогорова-Арнольда (KAN), и он обещает решить проблему интерпретируемости нейросетей, сохраняя при этом высокую эффективность для ряда задач. Новая сеть основывается на теореме, выведенной Андреем Колмогоровым и Владимиром Арнольдом в 1957 году, которая утверждает, что любую сложную многомерную функцию можно представить как набор простых функций с одной переменной. Эта идея была переосмыслена и адаптирована для использования в эпоху глубокого обучения.
Сети Колмогорова-Арнольда привлекли внимание исследователей по двум ключевым причинам. Во-первых, они потенциально более прозрачны по сравнению с традиционными MLP. Во-вторых, они могут решать научные задачи с большей точностью, чем стандартные нейронные сети. Одним из ключевых отличий KAN является то, что вместо использования числовых весов между узлами, как это делается в MLP, в этой сети используются нелинейные функции, которые могут быть настроены более точно и позволяют моделировать более сложные зависимости.
Исторически сети Колмогорова-Арнольда считались непрактичными. В 1989 году исследователи, в том числе физик Томазо Погджо из Массачусетского технологического института, утверждали , что теорема Колмогорова-Арнольда не имеет практического применения для обучения сетей. Одной из проблем было то, что простые функции, которые используются для представления сложных функций, могут быть “негладкими”, то есть иметь резкие углы, которые затрудняют обучение сети.
Тем не менее, в начале 2024 года студент MIT Циминг Лю решил вернуться к этой идее и попробовать применить её в контексте современных вычислительных возможностей. Благодаря значительному прогрессу в программном и аппаратном обеспечении с момента публикации работы Погджо, Лю и его руководитель Макс Тегмарк смогли создать прототип сети KAN, который стал основой для их дальнейших экспериментов.
Поначалу двухслойные сети, построенные на базе теоремы Колмогорова-Арнольда, не продемонстрировали значительных успехов, особенно при решении научных задач, таких как моделирование физических процессов. Прорыв произошел, когда Тегмарк предложил использовать более глубокие сети, состоящие из трёх и более слоёв. Это оказалось ключевым решением: в апреле 2024 года исследователи представили трёхслойную модель, которая смогла точно воспроизвести математическую функцию, недоступную для двухслойных сетей.
В ходе дальнейших исследований команда экспериментировала с более глубокими сетями, состоящими из шести слоёв, и каждое добавление слоя улучшало способность сети решать более сложные задачи. Один из примеров практического применения KAN — это решение задачи из теории узлов, где сеть не только смогла предсказать топологическое свойство узла, но и объяснить взаимосвязь между его другими свойствами. Это было значительным достижением, поскольку стандартные нейросети, такие как MLP, способны лишь выдавать результат без предоставления пояснений.
Другой пример применения KAN связан с явлением в физике конденсированных сред под названием локализация Андерсона. Задача состояла в предсказании границы, на которой происходит фазовый переход, а также в определении математической формулы, описывающей этот процесс. Стандартные нейронные сети не могут решить эту задачу, но сеть Колмогорова-Арнольда справилась с ней успешно.
Однако самым значительным преимуществом KAN является её интерпретируемость. В отличие от других нейросетей, KAN не просто выдаёт ответ, но и предоставляет объяснение, что делает её особенно полезной в научных исследованиях. Это значит, что вместо простой цифры или набора данных сеть может вывести формулу или математическое правило, которое можно записать и использовать в дальнейшем. Такой подход открывает новые возможности для применения нейросетей в науке, где понимание процесса часто является ключевым фактором.
Исследователи продолжают совершенствовать сеть Колмогорова-Арнольда, и результаты последних месяцев показывают, что она может заменить стандартные нейросети в ряде научных задач. Недавние работы показали, что KAN значительно превосходит MLP в решении дифференциальных уравнений, которые встречаются практически во всех областях науки. Однако MLP остаются более эффективными в задачах компьютерного зрения и обработки звука.
Таким образом, сеть Колмогорова-Арнольда открывает новые перспективы для применения искусственного интеллекта, особенно в тех областях, где важна не только точность предсказаний, но и способность объяснять, как и почему они получаются.
Источник: SecurityLab