Искусственный интеллект научился «видеть» как человек: прорыв в машинном зрении

Об этом сообщает «КТРК» со ссылкой на SciTechDaily

Содержание

Как работает мозг и что не удавалось CNN В чем суть LP-Convolution и почему это важно Результаты тестов и сходство с нейрофизиологией Перспективы применения и дальнейшее развитие

Группа исследователей представила новую технологию машинного зрения, вдохновлённую работой человеческого мозга. Разработка под названием Lp-Convolution, основанная на нейрофизиологических принципах, значительно увеличивает точность обработки изображений и снижает вычислительную нагрузку. Метод официально представлен на конференции ICLR 2025 и уже вызвал интерес как в сфере искусственного интеллекта, так и в нейронауках.

Технология была создана усилиями Института базовой науки, Университета Ёнсе и Института Макса Планка. Целью было сделать сверточные нейронные сети (CNN) более адаптивными и «умными» — ближе к тому, как визуальная кора мозга человека справляется с обработкой сложных визуальных сцен. Новая архитектура позволяет ИИ динамически изменять форму фильтров, в отличие от традиционных фиксированных масок.

Как работает мозг и что не удавалось CNN

Традиционные CNN-алгоритмы используют квадратные фильтры фиксированного размера, которые перемещаются по изображению с постоянным шагом. Это ограничивает способность таких систем захватывать взаимосвязанные элементы на больших расстояниях, особенно при фрагментированных данных. При этом человеческий мозг анализирует зрительную информацию через нейроны с плавным и нелинейным распределением связей, охватывающим как центр, так и периферию зрительного поля.

В противоположность этому, трансформеры (ViTs) оценивают изображения целиком, обеспечивая более высокую точность. Однако цена за такую точность — высокая вычислительная сложность и потребность в колоссальных объёмах обучающих данных. Новый подход предлагает компромисс: Lp-Convolution объединяет биологическую правдоподобность с эффективностью, сохраняя при этом компактность и практичность CNN.

В чем суть LP-Convolution и почему это важно

Метод Lp-Convolution использует многомерное обобщенное нормальное распределение для модификации фильтров нейросети в реальном времени. Это позволяет системе адаптировать форму фильтра — растягивать его в зависимости от типа визуальной информации, которую необходимо распознать. Такая гибкость имитирует работу зрительной коры, обеспечивая высокий уровень селективности.

Ранее расширение фильтров до больших размеров в CNN не приводило к улучшению результатов, несмотря на рост числа параметров. Lp-Convolution решает эту проблему за счёт более гибкой структуры соединений, имитирующей то, как мозг «распределяет внимание» на нужные участки изображения. Это открывает новые горизонты в дизайне нейросетевых архитектур, особенно для задач с высокой степенью неопределённости.

Результаты тестов и сходство с нейрофизиологией

Алгоритм был протестирован на стандартных наборах данных CIFAR-100 и TinyImageNet. В обоих случаях технология показала рост точности как на классических архитектурах вроде AlexNet, так и на современных RepLKNet. Кроме того, новая модель продемонстрировала устойчивость к искажённым или повреждённым данным, что критично для реальных приложений.

Особый интерес вызвал тот факт, что структура фильтров Lp-Convolution при приближении к гауссовому распределению показала внутреннюю активность, аналогичную той, что наблюдается в зрительной коре грызунов. Это стало подтверждением биологической реалистичности метода и его потенциала в области когнитивных вычислений.

Перспективы применения и дальнейшее развитие

Разработка имеет потенциал стать ключевым решением в области автономных систем и медицины. В частности, она может применяться в системах автопилотирования, где требуется мгновенное распознавание объектов, а также в медицинской диагностике для выделения малозаметных патологий на снимках.

Кроме того, технология может существенно улучшить зрительные системы в робототехнике, сделав их более устойчивыми к изменениям окружающей среды. Исследовательская группа уже рассматривает возможность использования LP-Convolution для решения логических задач, таких как судоку, и в режимах реального времени.

Напомним, ранее мы писали о том, как видео, созданные ИИ, меняют реальность.