Как чат-боты на основе ИИ утекли с данными клиентов: пример OpenAI и решение проблемы

Даже самые продвинутые ИИ-решения могут стать уязвимыми, если разработчики не учитывают, как работают внутренние механизмы передачи данных. 

Нурлан Бекмуратов 769 Views
Человек у ноутбука. Фото - Pixabay

Сервисные компании, использующие искусственный интеллект, столкнулись с новой угрозой — утечкой конфиденциальных данных через API. Как сообщает HackerNoon, исследователь из Lab42AI продемонстрировал, как даже обычный запрос к OpenAI может передавать личные сведения пользователей и внутренние метаданные, пишет КТРК.

Как происходит утечка данных через API

По данным экспертов, большинство компаний не осознают, что провайдеры LLM-моделей (например, OpenAI или Anthropic) видят полное содержимое взаимодействий между агентами и пользователями. При передаче данных через API система может логировать не только тексты сообщений, но и параметры модели, системные подсказки, токены, а иногда и коды бизнес-логики. Это делает уязвимыми коммерческие стратегии, исходный код и данные клиентов.

Исследование Lab42AI показало, что даже простая команда для бота сохраняется в виде протоколов OpenTelemetry. Такие логи содержат IP-адреса, метаданные и текстовые запросы. При неправильной настройке безопасности данные попадают во внешние сервисы мониторинга и могут быть использованы злоумышленниками или конкурентами.

Как предотвратить передачу личных данных

Специалисты советуют тщательно изучать политику конфиденциальности и условия использования API-платформ. Некоторые компании используют данные пользователей для дополнительного обучения моделей, а другие — только для аналитики. Эксперты рекомендуют внедрять классификацию данных внутри компаний: любые идентификационные сведения (например, имена, адреса, банковские данные) должны быть исключены из внешних запросов.

Кроме того, необходимо обучать сотрудников определять чувствительные шаблоны информации. В крупных организациях часто применяют автоматические фильтры для выявления персональных данных перед их отправкой через API-запросы. Это помогает минимизировать риски нарушения регуляторных норм, особенно в банковском и медицинском секторах.

Безопасная альтернатива — локальные модели

В качестве решения исследователи предлагают использовать открытые локальные модели, такие как Ollama, которые позволяют запускать большие языковые модели (LLM) на собственных серверах. Это исключает передачу данных во внешние облака. Ollama поддерживает Llama 3, Mistral, Gemma, Phi и другие популярные модели, что позволяет организациям подобрать вариант под свои вычислительные возможности.

Локальные решения обеспечивают полную автономию и конфиденциальность, но требуют ресурсов и технической подготовки. Для запуска моделей среднего размера необходимо от 16 до 32 ГБ оперативной памяти, а для крупных — свыше 64 ГБ. Несмотря на затраты, именно такой подход становится приоритетным для компаний, работающих с клиентской и внутренней информацией.

Когда стоит выбирать облако, а когда — локальную инфраструктуру

Облачные модели остаются удобным инструментом для прототипирования, тестирования и быстрой масштабируемости. Однако при обработке персональных данных и коммерчески чувствительной информации лучше использовать локальные или гибридные схемы. Такой подход позволяет совмещать производительность и безопасность, сохраняя контроль над потоками данных.

Многие аналитики сходятся во мнении, что в ближайшие годы компании будут переходить на комбинированную стратегию: локальные модели для критических задач и облачные API — для менее чувствительных сервисов. Это позволит соблюсти стандарты конфиденциальности и при этом использовать преимущества современных ИИ-платформ.

Напомним, ранее мы писали о том, почему эпоха ИИ в кодинге рушится

Поделиться