
Российские учёные научились «заглядывать» в мысли нейросетей
Большие языковые модели, такие как ChatGPT или YandexGPT, генерируют текст, опираясь на многослойную архитектуру нейросетей. Каждый слой обрабатывает данные, передавая информацию дальше, но до сих пор учёные могли лишь фиксировать появление отдельных признаков в этих слоях, не понимая, как именно они эволюционируют.
Для решения проблемы исследователи предложили подход на основе разреженных автокодировщиков — особого типа нейросетей — и графа потока признаков. Эта «карта» показывает, где, когда и как в модели возникают, трансформируются или исчезают ключевые смысловые элементы. Эксперименты доказали, что, усиливая или подавляя определённые признаки на разных этапах обработки, можно менять стиль, тематику или тональность генерируемого текста.
Учёные отметили, что вмешательство сразу на нескольких слоях позволяет управлять моделью точнее и с меньшими потерями в качестве, чем воздействие на отдельный уровень. Такой метод открывает путь к созданию более безопасных и этичных ИИ-решений. Например, чат-ботов можно научить избегать нежелательных тем без трудоёмкого переобучения — достаточно скорректировать «маршрут» признаков в графе.
По словам разработчиков, технология может использоваться в финансовом секторе, образовании, медицине и других сферах, где критически важны прозрачность и контроль над решениями ИИ.