Об этом сообщает «КТРК» со ссылкой на SciTechDaily
Технологии искусственного интеллекта по-прежнему не способны эффективно понимать социальные взаимодействия в реальных условиях. Исследование учёных из Университета Джонса Хопкинса показало, что даже самые современные ИИ-модели значительно уступают человеку в способности интерпретировать поведение людей в динамичных сценах. Эти недостатки критичны для таких областей, как автономные автомобили и робототехника, где ИИ должен взаимодействовать с людьми в непредсказуемой среде.
Авторы работы подчёркивают, что современные алгоритмы не могут распознавать такие ключевые элементы, как намерения, цели и взаимодействия между людьми. Причиной называют ограничения в архитектуре ИИ, изначально ориентированной на анализ статичных изображений, а не на сложные поведенческие паттерны, формирующиеся в живом взаимодействии.
Человеческое восприятие опережает ИИ
Чтобы сравнить способности ИИ и человека, участникам исследования показывали трёхсекундные видеоклипы с участием людей в различных ситуациях. Задачей добровольцев было оценить степень социального взаимодействия в сценах по шкале от одного до пяти. Видео включали как активное взаимодействие, так и независимые действия рядом стоящих людей.
После этого аналогичное задание было поставлено более чем 350 языковым, видеомоделям и алгоритмам распознавания изображений. Они должны были предсказать, как участники оценили сцены, а также — как мозг отреагировал бы на просмотр. В то время как люди показывали согласованные оценки, ИИ-системы не смогли воспроизвести такую согласованность ни в одном из направлений.
Разрыв между моделями и реальностью
Видеоалгоритмы оказались не в состоянии точно определить, что именно делают люди на записи. Даже модели, анализирующие последовательности изображений, часто не различали, ведут ли люди разговор или просто находятся рядом. Языковые модели продемонстрировали лучшие результаты в прогнозировании человеческого поведения, но и они не достигли высокого уровня точности.
Авторы подчёркивают, что основной успех ИИ до сих пор связан с анализом статичных данных — лиц, объектов, фонов. Однако в реальной жизни ключевым становится понимание контекста, развития сцены и взаимоотношений между людьми. Это требует новых подходов к разработке моделей, способных распознавать события, происходящие во времени.
Архитектурные ограничения систем ИИ
Исследователи считают, что одна из причин ограничений кроется в том, что большинство нейросетей разрабатывались по образцу отделов мозга, ответственных за восприятие изображений. Однако за анализ социальных сцен у человека отвечает другой участок мозга, что объясняет, почему ИИ не способен имитировать поведение людей в сложных взаимодействиях.
Системы ИИ по-прежнему не могут имитировать когнитивную гибкость человека — способность улавливать мотивации, предвидеть действия и оценивать намерения. Это ставит под вопрос надёжность ИИ в тех сферах, где требуется адекватное реагирование на социальную динамику: от автомобилей без водителей до роботов-помощников в больницах и на производстве.
Следующий шаг в развитии искусственного интеллекта
Учёные подчёркивают, что текущий прогресс в ИИ застопорился на уровне распознавания объектов и образов. Переход к пониманию взаимодействий требует принципиально новых нейросетевых архитектур. Именно поэтому проблема, выявленная исследованием, может быть названа слепым пятном в развитии ИИ.
Результаты исследования были представлены на Международной конференции по обучающим представлениям и поддержаны Национальным научным фондом США. Учёные считают, что только фундаментальные изменения в подходах к обучению моделей помогут приблизиться к более глубокому и реалистичному пониманию человеческого поведения со стороны машин.
Напомним, ранее мы писали о том, почему корпоративные AI-проекты терпят крах.