Об этом сообщает «КТРК» со ссылкой на The Conversation
С развитием технологий искусственного интеллекта встает важный вопрос: как убедиться, что ИИ действует в интересах человека? Проблема согласования целей ИИ с человеческими ценностями становится все более актуальной, поскольку возможности ИИ растут экспоненциально. Однако, в реальной жизни это сложная задача, так как у каждого человека свои приоритеты и цели. Например, пешеход может предпочесть, чтобы беспилотный автомобиль резко затормозил при угрозе аварии, в то время как пассажир в машине может захотеть, чтобы автомобиль объехал препятствие.
Проблема согласования целей: как измерить несоответствие?
Для решения этой задачи ученые предложили метод оценки несоответствия целей, основанный на трех ключевых факторах: людях и ИИ, их конкретных целях по различным вопросам и важности каждой из этих целей. Исследование показало, что уровень несоответствия максимален, когда цели равномерно распределены между агентами. Это логично: если все хотят чего-то разного, конфликтов будет больше. Напротив, если большинство агентов разделяет одну цель, несоответствие снижается.
Важно, что большинство исследований по безопасности ИИ рассматривают согласование как двусторонний процесс, где все или ничего. Однако предложенная модель более сложна и допускает промежуточные состояния. Это позволяет точно и более понятно анализировать, в каких контекстах ИИ может быть согласован с людьми, а в каких — нет.
Почему это имеет значение для будущего технологий?
Этот подход важен для разработчиков ИИ, так как помогает четко понимать, что означает «согласование с человеческими ценностями». Например, система рекомендаций ИИ, которая предлагает пользователю товары, может быть согласована с целью увеличения продаж, но быть несогласованной с целью клиента, который хочет жить в пределах бюджета. Понимание этих различий помогает создавать более этичные и эффективные системы ИИ.
Для законодателей это означает возможность разработки стандартов для оценки несоответствия и установления критериев для гармонизации целей ИИ и человека. Для разработчиков и команд по безопасности это предоставляет инструменты для поиска компромиссов между интересами различных сторон.
Как ИИ может соответствовать человеческим ценностям?
Исследование сосредоточено на том, как можно сравнить цели людей и ИИ. Для сбора данных о ценностях людей можно использовать опросы, а для анализа целей ИИ необходимы более сложные подходы. Современные ИИ-системы, такие как большие языковые модели, по своей природе являются черными ящиками, что затрудняет понимание их целей. Однако исследования по интерпретации этих моделей могут помочь разобраться в их внутренней логике и, возможно, сделать их цели более прозрачными.
Напомним, ранее мы писали о том, как новые технологии меняют подход к найму сотрудников.