Худший лучший друг: бесплатные чат-боты против чистых резервуаров данных

К 2025 году мир ИИ разделился на два пути: открытые модели для быстрых и повседневных задач, обученные на хаотичных интернет-данных, и корпоративные решения, построенные на лицензированных, очищенных и проверенных массивах, где главной ценностью становится не скорость, а надёжность.

Нурлан Бекмуратов 2434 Views
Искусственный интеллект. Фото - КТРК

Большие языковые модели продолжают выдавать ошибки как факты. Даже несмотря на новые релизы, проблема не исчезла. Согласно Hackernoon, рейтинг Vectara за 2025 год показывает: уровень ошибок GPT-5 составляет 1,4%, что ниже GPT-4 (1,8%) и немного лучше GPT-4o (1,49%). Однако даже минимальные ошибки могут иметь серьёзные последствия, когда речь идёт о медицине, юриспруденции или психотерапии, пишет КТРК.

Проблема галлюцинаций у LLM проявлялась неоднократно: в 2023 году Bard от Google ошибся в фактах о телескопе James Webb, позже Google AI советовал «есть камни для минералов», а ChatGPT предоставил юристам шесть несуществующих дел, что обернулось санкциями. Эти заголовки могут показаться курьёзными, но в реальности неправильные ответы становятся риском для жизни и бизнеса.

Почему модели начинают галлюцинировать

Основная причина заключается в самой природе обучения языковых моделей: они прогнозируют следующее слово в последовательности, а не проверяют факты. У них нет встроенной базы достоверных знаний — вместо этого текст генерируется на основе вероятных паттернов из обучающего корпуса. Когда данных недостаточно, модель «угадывает», что выглядит наиболее правдоподобным.

Источником данных долгое время служил интернет — блоги, форумы, вики. Но к 2025 году значительная часть сети уже создаётся самими ИИ, и модели начинают учиться на собственных ошибках. Это приводит к повторению неточностей и усилению искажений.

Конец эпохи бесплатных данных

Начиная с 2023 года, крупнейшие платформы ограничили доступ к своим данным. Reddit урезал бесплатный API, Twitter/X полностью отменил бесплатный доступ, LinkedIn ужесточил правила против массового сбора. Stack Overflow объявил платный доступ к своим Q&A, а Quora перевела часть контента в приложение Poe. Meta ввела ограничения на использование данных Facebook и Instagram.

Таким образом, эпоха свободного использования пользовательского контента закончилась. Крупные AI-компании перешли к лицензированию данных, а модели с открытым доступом остались с устаревшими и шумными массивами. Это увеличивает риск обучения на текстах, уже созданных другими ИИ.

Рынок лицензированных данных

OpenAI ещё в 2023 году подписала соглашение с Associated Press, позже — с Axel Springer и News Corp. К 2025 году к ним присоединились более двадцати крупных издателей, включая The Guardian и The Washington Post. Google заключил сделку с AP в 2025 году, а Microsoft обеспечил интеграцию Copilot с Westlaw для юридических запросов.

Рынок лицензированных данных оценивается в $3,2 млрд в 2024 году и, по прогнозам, вырастет до $16,3 млрд к 2034-му. В этот сегмент входят новости, академические архивы, медицинские репозитории, финансовая информация и промышленные данные. Но многие источники по-прежнему закрыты: The New York Times подала в суд на OpenAI и Microsoft, Elsevier и Wiley оставили свои научные архивы недоступными.

Где формируются чистые резервуары

Секторные хранилища данных становятся новым стандартом. В новостях и издательстве — AP, Axel Springer, News Corp, The Guardian, Vox Media. В академической среде — Harvard, MIT, открытые репозитории arXiv и Semantic Scholar. В медицине — curated-дatasets вроде ScaleMAI и DR-AIR. В финансах — BloombergGPT и Thomson Reuters.

Эти резервуары отличаются фильтрацией, верификацией и строгим контролем доступа. Их преимущество заключается в том, что они позволяют компаниям строить ИИ на проверенной информации, а не на случайных интернет-данных.

Практики защиты от ошибок

Для пользователей, у которых остаётся доступ только к публичным моделям, важны чёткие правила работы:

  • формулировать запросы максимально ясно;
  • использовать ограниченные источники и указывать модели брать информацию только из них;
  • запрещать домыслы и неподтверждённые утверждения;
  • проверять все даты, имена и цифры вторым источником при высоких рисках;
  • сохранять удачные шаблоны промптов для повторного использования.

Такие меры помогают снизить вероятность галлюцинаций и удержать ответы в рамках фактов.

Напомним, ранее мы писали про мир соглашений об обмене прибылью в сфере искусственного интеллекта.

Поделиться