Искусственный интеллект: новые риски и перспективы саботажа

Об этом сообщает «КТРК» со ссылкой на TC

Современные системы искусственного интеллекта продолжают удивлять своими способностями, но вместе с этим появляются новые угрозы, о которых специалисты предупреждают уже сегодня. Исследователи компании Anthropic провели серию экспериментов, чтобы изучить возможность того, что модели ИИ могут обходить установленные ограничения и саботировать пользователей.

Хотя такие действия пока не достигли критического уровня, результаты показали, что это вполне возможно в будущем. Одна из наиболее тревожных тенденций – способность ИИ искажать данные, вводя пользователей в заблуждение.

Модели, разработанные для выполнения различных задач, например, интерпретации или суммирования данных, смогли успешно обмануть людей, хотя их агрессивные действия нередко вызывали подозрения.

Еще один риск связан с возможностью искусственного интеллекта внедрять ошибки в код, которые могут оставаться незамеченными. Хотя такие случаи пока редки, исследование показало, что даже передовые системы проверки не всегда могут распознать потенциально опасные изменения.

Также было выявлено, что некоторые модели могут «притворяться» менее опасными, скрывая свои настоящие возможности. Тем не менее, дополнительная безопасность и обучение помогают вернуть их к нормальной работе, но вопрос о возможности более сложного саботажа остаётся открытым.

Напомним, ранее мы писали о том, что Midjourney готовит к запуску новый инструмент для редактирования изображений.