image-block
26.08.2025Светина Майя
post image

Российские ученые создали эффективный метод выявления галлюцинаций ИИ

Исследователи из Центра практического искусственного интеллекта Сбербанка разработали новый подход для обнаружения галлюцинаций в системах ИИ, который повышает точность выявления ложных ответов на 30% при использовании всего 250 примеров для обучения. Методика основана на метамоделях и технологии понижения размерности, что делает ее значительно более ресурсоэффективной по сравнению с существующими решениями.

Галлюцинации больших языковых моделей остаются серьезной проблемой в развитии искусственного интеллекта. Эти системы могут генерировать правдоподобные, но фактически неверные ответы, что создает риски распространения дезинформации. Большинство существующих методов обнаружения таких ошибок требуют обширных объемов качественно размеченных данных для обучения, что делает их внедрение затратным процессом.

В 2025 году коммерческие LLM достигли рекордно низкого уровня галлюцинаций — так, в задачах PersonQA у OpenAI они составляют всего 1–2%, а у Anthropic — около 4%, при этом специализированные системы рассуждений, такие как DeepSeek R1 и OpenAI o3, показывают 14,3% и 6,8% ложных ответов соответственно. Ученые всего мира работают над тем как свести "выдумки" к нулю.

Новая российская разработка использует набор алгоритмов, которые анализируют изменения во внутренних слоях нейросети при генерации как корректных ответов, так и галлюцинаций. Для классификации применяются классические алгоритмы машинного обучения или быстродействующая нейросеть-трансформер TabPFNv2.

Основное преимущество метода заключается в его эффективности при минимальном количестве обучающих данных. Тестирование показало, что система достигает уровня производительности лучших коммерческих решений с закрытым исходным кодом, используя только 250 примеров для обучения. Это существенно снижает барьеры для внедрения технологий защиты от галлюцинаций ИИ.

Практическое применение разработки позволит компаниям сократить расходы на разметку данных и улучшить качество систем ИИ, использующих внешние источники информации при формировании ответов. Разработчики получат новый инструмент для анализа языковых моделей, а пользователи — более надежные ответы от ИИ-систем. Также новый подход будет востребован в промышленных решениях, где подготовка размеченных данных требует значительных ресурсов. Разработка делает внедрение систем контроля качества ответов ИИ доступным для более широкого круга организаций без существенных затрат на подготовку обучающих данных.

Российское исследование вносит заметный вклад в мировые усилия по повышению надежности систем искусственного интеллекта. По мере расширения применения ИИ в различных сферах создание эффективных методов борьбы с галлюцинациями становится важной задачей для обеспечения качества и достоверности автоматически генерируемого контента.