25.07.2025Светина Майя

Российские учёные научились «заглядывать» в мысли нейросетей

Российские исследователи рассказали о новом методе, который позволяет интерпретировать и управлять внутренними процессами больших языковых моделей. Технология делает системы искусственного интеллекта более прозрачными, а также даёт возможность влиять на их «рассуждения» без изменения параметров или дообучения.

Большие языковые модели, такие как ChatGPT или YandexGPT, генерируют текст, опираясь на многослойную архитектуру нейросетей. Каждый слой обрабатывает данные, передавая информацию дальше, но до сих пор учёные могли лишь фиксировать появление отдельных признаков в этих слоях, не понимая, как именно они эволюционируют.

Для решения проблемы исследователи предложили подход на основе разреженных автокодировщиков — особого типа нейросетей — и графа потока признаков. Эта «карта» показывает, где, когда и как в модели возникают, трансформируются или исчезают ключевые смысловые элементы. Эксперименты доказали, что, усиливая или подавляя определённые признаки на разных этапах обработки, можно менять стиль, тематику или тональность генерируемого текста.

Учёные отметили, что вмешательство сразу на нескольких слоях позволяет управлять моделью точнее и с меньшими потерями в качестве, чем воздействие на отдельный уровень. Такой метод открывает путь к созданию более безопасных и этичных ИИ-решений. Например, чат-ботов можно научить избегать нежелательных тем без трудоёмкого переобучения — достаточно скорректировать «маршрут» признаков в графе.

По словам разработчиков, технология может использоваться в финансовом секторе, образовании, медицине и других сферах, где критически важны прозрачность и контроль над решениями ИИ.