
Российские ученые создали эффективный метод выявления галлюцинаций ИИ
Галлюцинации больших языковых моделей остаются серьезной проблемой в развитии искусственного интеллекта. Эти системы могут генерировать правдоподобные, но фактически неверные ответы, что создает риски распространения дезинформации. Большинство существующих методов обнаружения таких ошибок требуют обширных объемов качественно размеченных данных для обучения, что делает их внедрение затратным процессом.
В 2025 году коммерческие LLM достигли рекордно низкого уровня галлюцинаций — так, в задачах PersonQA у OpenAI они составляют всего 1–2%, а у Anthropic — около 4%, при этом специализированные системы рассуждений, такие как DeepSeek R1 и OpenAI o3, показывают 14,3% и 6,8% ложных ответов соответственно. Ученые всего мира работают над тем как свести "выдумки" к нулю.
Новая российская разработка использует набор алгоритмов, которые анализируют изменения во внутренних слоях нейросети при генерации как корректных ответов, так и галлюцинаций. Для классификации применяются классические алгоритмы машинного обучения или быстродействующая нейросеть-трансформер TabPFNv2.
Основное преимущество метода заключается в его эффективности при минимальном количестве обучающих данных. Тестирование показало, что система достигает уровня производительности лучших коммерческих решений с закрытым исходным кодом, используя только 250 примеров для обучения. Это существенно снижает барьеры для внедрения технологий защиты от галлюцинаций ИИ.
Практическое применение разработки позволит компаниям сократить расходы на разметку данных и улучшить качество систем ИИ, использующих внешние источники информации при формировании ответов. Разработчики получат новый инструмент для анализа языковых моделей, а пользователи — более надежные ответы от ИИ-систем. Также новый подход будет востребован в промышленных решениях, где подготовка размеченных данных требует значительных ресурсов. Разработка делает внедрение систем контроля качества ответов ИИ доступным для более широкого круга организаций без существенных затрат на подготовку обучающих данных.
Российское исследование вносит заметный вклад в мировые усилия по повышению надежности систем искусственного интеллекта. По мере расширения применения ИИ в различных сферах создание эффективных методов борьбы с галлюцинациями становится важной задачей для обеспечения качества и достоверности автоматически генерируемого контента.