Исследование OpenAI проливает свет на неизбежность ошибок в генерации текста искусственным интеллектом: даже самые современные языковые модели, такие как ChatGPT, продолжают создавать “галлюцинации” — неправдивые или вымышленные факты, независимо от качества исходных данных. В материале The Conversation приводится анализ свежей научной работы OpenAI, которая доказывает математическую неизбежность подобных ошибок, объясняя их не только изъянами в датасете, но и самой природой работы языковых моделей. Новое исследование подчеркивает: любая попытка полностью избавиться от галлюцинаций в конечном итоге ухудшит пользовательский опыт, пишет КТРК.
Галлюцинации как математическая закономерность
Авторы научной работы OpenAI доказали, что даже при идеальных обучающих данных языковые модели всегда будут ошибаться. Алгоритмы, предсказывающие текст по одному слову на основе вероятностей, накапливают ошибки — и в результате итоговый текст содержит ложные сведения в большем объеме, чем при ответах на простые бинарные вопросы. Пример с датой рождения одного из авторов работы показывает, что AI может уверенно ошибаться несколько раз подряд, если нужный факт встречается в датасете крайне редко. Это подтверждает вывод: чем меньше факт встречается в обучающих данных, тем выше риск ошибки.
Почему AI “предпочитает” угадывать
Авторы исследования обращают внимание на еще одну фундаментальную проблему: современные бенчмарки и системы оценки заставляют искусственный интеллект делать уверенные предположения, а не признавать незнание. Большинство популярных тестов для AI — от Google до OpenAI — используют бинарную систему, где сомнение и ошибка оцениваются одинаково низко. В такой системе “угадай” всегда выгоднее, чем “скажи, что не знаешь”. Это приводит к “эпидемии” неправильных, но звучащих уверенно ответов, что и формирует типичное поведение современных языковых моделей.
Почему кардинальное решение разрушит пользовательский опыт
OpenAI предлагает радикальное решение: разрешать ИИ отвечать только при достаточной уверенности в ответе и внедрять такие оценки в системы тестирования. В теории это действительно сократит количество ошибок и галлюцинаций, поскольку система начнет чаще отказываться от ответа. Однако, как отмечают исследователи, это приведет к резкому росту доли запросов, на которые пользователь услышит “Не знаю” или не получит ответа вовсе. Для массового пользователя такое поведение станет поводом отказаться от системы: привычка получать ответы на любой вопрос сильнее страха получить ложную информацию.
Экономика и вычислительные издержки нового подхода
Внедрение систем, учитывающих неуверенность и оценивающих вероятность ошибки, требует намного больше вычислительных ресурсов, чем нынешние подходы. Для специализированных областей, где ошибка может стоить миллионов — как, например, в медицине или логистике, — такие расходы оправданы. Но в потребительских сервисах, обрабатывающих миллионы запросов ежедневно, экономика проекта становится нерентабельной. Даже снижение стоимости энергии и совершенствование чипов не отменит того факта, что новые модели всегда будут “дороже” и медленнее существующих “угадывающих” систем.
Напомним, ранее мы писали о том, как AI‑агенты меняют цифровой бизнес.
