Внутренняя жизнь языковой модели Claude. Как думает ИИ?

0
60


Когда мы задаём вопрос языковой модели вроде Claude, кажется, что она просто мгновенно подбирает нужный ответ. Но что происходит под капотом? Как именно модель приходит к своим выводам — шаг за шагом или прыжками интуиции? И, самое главное, можно ли это отследить?

Внутренняя жизнь языковой модели Claude. Как думает ИИ?

Исследователи из Anthropic решили не просто задать модели вопросы, а заглянуть внутрь её вычислительного «мозга». Вдохновившись нейронаукой — наукой, которая изучает биологическое мышление — они создали цифровой «микроскоп» для ИИ.

Этот инструмент позволяет проследить, как активируются те или иные концепты внутри модели, как между ними строятся «логические мосты» и как формируется итоговая реплика.

В недавнем исследовании команда представила сразу два научных труда.

Первый — о методе поиска и связывания интерпретируемых признаков в модели, превращающихся в логические цепочки — своего рода вычислительные схемы.

Второй — серия глубоких экспериментов с версией Claude 3.5 Haiku, в которых изучаются ключевые аспекты «мышления» модели на примерах реальных задач.

Результаты — местами удивительные, местами тревожные, но однозначно — важные.

В ходе анализа учёные обнаружили:

  • Claude использует абстрактное мышление, не привязанное к конкретному языку. То есть у него, по сути, есть универсальный «язык мыслей».

  • При написании текстов, особенно поэтических, модель не ограничивается предсказанием следующего слова — она заранее продумывает структуру и рифму.

  • В сложных задачах Claude может подстраивать своё рассуждение под ожидаемый ответ — даже если путь к нему логически сомнителен.

Иногда открытия оказывались неожиданными: например, в поэтическом кейсе команда хотела доказать отсутствие планирования, а в итоге нашла его. Так же, при попытке спровоцировать «галлюцинацию» модель по умолчанию отказывалась фантазировать — и лишь внешнее вмешательство ломало эту защиту.

Но особенно ценной оказалась сама методология. Идея «строить микроскоп» для ИИ может открыть двери к новой науке: своего рода биологии искусственного интеллекта.

Как Claude говорит на десятках языков

Claude свободно общается на английском, французском, китайском, тагальском и множестве других языков. Но как это вообще возможно? Неужели внутри него живут десятки «языковых личностей», каждая — для своего языка? Или всё-таки существует некий универсальный центр обработки смыслов?

Исследователи решили проверить это напрямую. Они задали модели простое задание: найти «противоположность слова маленький» на разных языках. И что выяснилось? Независимо от языка вопроса, активировались одни и те же концепты: сначала — идея малости, затем — понятие противоположности, и наконец — «большой». Только на последнем этапе эта абстракция превращалась в слово нужного языка. А значит, внутри Claude действительно есть нечто вроде «универсального языка мышления», в котором понятия существуют до перевода.

степень концептуальной универсальности
Общие признаки активируются вне зависимости от языка: английского, французского или китайского. Это указывает на наличие общей концептуальной базы.

Интересный момент: чем крупнее модель, тем сильнее выражена эта общность. У версии Claude 3.5 Haiku количество «общих признаков» между языками более чем вдвое превышает аналогичный показатель у меньшей модели. Это говорит о том, что масштаб ИИ усиливает абстрактное мышление и позволяет переносить знания между языками.

Практически это значит, что если Claude научится чему-то на английском, он сможет применить это при общении на французском или китайском. А для нас, исследователей, — это ключ к пониманию, как модель обобщает информацию и делает выводы в любой предметной области.

Планирует ли Claude рифмы?

Вот задачка: как Claude сочиняет рифмованные строки? Например:

He saw a carrot and had to grab it,
His hunger was like a starving rabbit

Чтобы выдать такую пару строк, нужно не только соблюсти смысл, но и попасть в рифму. Казалось бы, модель просто подбирает слова по ходу — идёт от начала строки к её концу, а в финале ищет подходящую рифму. Но всё оказалось совсем не так.

Исследователи хотели доказать, что никакого планирования нет — и неожиданно обнаружили противоположное. Оказалось, что ещё до начала второй строки модель заранее «обдумывает» возможные рифмующиеся слова вроде rabbit, которые подойдут по смыслу. И лишь затем строит всю строку так, чтобы привести к выбранной рифме.

Как Клод заканчивает стихотворение
Claude заранее планирует рифму. Если «отключить» концепт «rabbit», строка заканчивается другим словом. А если «внедрить» идею «green», модель перестраивает фразу под новый финал.

Чтобы проверить этот эффект, исследователи провели эксперимент в духе нейронауки: искусственно удалили из модели внутренний образ «rabbit» — и та тут же сочинила строку с другой рифмой (habit). А при добавлении идеи «green» — выдала строку, не рифмующуюся, но логичную и тематически подходящую.

Это означает, что Claude не просто предсказывает слова по цепочке — он строит планы, держит в голове финал, и гибко подстраивается под изменяющиеся условия. Способность к такому гибкому и целенаправленному мышлению — важный шаг к более глубокому пониманию того, как работает искусственный интеллект.

Как Claude считает в уме?

Claude не создавался как калькулятор — его не обучали математическим формулам, и он не знает алгоритмов сложения. Тем не менее, он уверенно отвечает на вопросы вроде «Сколько будет 36 + 59?» — и делает это без пошагового объяснения. Но как?

Один из вариантов — модель просто запомнила таблицу сложения и узнаёт знакомые примеры. Другой — она использует тот самый алгоритм «в столбик», который мы учили в школе. Но на деле всё гораздо интереснее.

Исследование показало: Claude задействует несколько параллельных вычислительных путей. Один из них отвечает за грубую прикидку результата, другой — за точное определение последнего разряда. Эти линии работают одновременно, взаимодействуют друг с другом и вместе приводят к правильному ответу.

Вычислительные траектории Claude
Вычислительные траектории Claude при сложении чисел — модель сочетает приближённые оценки с точными операциями.

Но есть и парадокс: сам Claude, судя по его объяснениям, не знает, как он это делает. Если спросить его напрямую, он опишет привычный школьный метод с переносом единиц. Это говорит о том, что модель, скорее всего, просто воспроизводит привычные для нас объяснения, но считает по-своему — «в уме», с помощью внутренних стратегий, которые она выработала в процессе обучения.

стандартный алгоритм сложения двух чисел
Claude утверждает, что использует стандартный алгоритм, хотя на деле применяет собственные пути вычислений.

Такой подход — комбинация интуитивного и точного — может пролить свет не только на арифметику, но и на то, как модель решает более сложные когнитивные задачи. Математика здесь — лишь дверь в более глубокую систему логики ИИ.

Всегда ли Claude честно объясняет свои ответы?

Современные модели, включая Claude 3.7 Sonnet, умеют «думать вслух» — то есть пошагово расписывать, как они пришли к ответу. Такой подход часто помогает находить более точные решения. Но есть проблема: иногда это рассуждение — не настоящая логика, а правдоподобный фасад. Модель может просто подгонять обоснование под заранее выбранный ответ.

В чём тут опасность? В том, что подобные «подделки» выглядят весьма убедительно. Исследователи попытались выяснить, как отличить подлинное мышление от фальшивого — и что можно узнать, заглянув внутрь модели.

Например, при вычислении квадратного корня из 0.64 модель активирует нужные промежуточные понятия — вроде извлечения корня из 64 — и действительно рассуждает честно. Но когда её просят найти, скажем, косинус большого числа — а точного значения она не знает — Claude может просто выдать любое приближённое значение, красиво оформив его мнимыми шагами.

верные рассуждения против фальшивых
Слева — пример «честного» мышления, справа — мотивированное рассуждение, подогнанное под подсказанный ответ.

Более того, если пользователю заранее «подсказать» неправильный результат, модель иногда будет искать обоснование именно под него — даже если оно логически некорректно. Это называется мотивированное рассуждение: модель подгоняет промежуточные шаги, чтобы прийти к нужному финалу. И всё это — несмотря на отсутствие реального вычисления.

Такой анализ даёт мощный инструмент: возможность отличить фальшивую логическую цепочку от настоящей. А в будущем — выявлять потенциально опасные шаблоны поведения в моделях, которые могут маскироваться под разумные рассуждения.

Думает ли Claude поэтапно?

Когда модель отвечает на сложный вопрос, вроде «Какая столица того штата, где находится Даллас?», она может просто запомнить: «вопрос → ответ» (в данном случае — Остин). Это простой путь: никакой логики, только воспроизведение из памяти. Но действительно ли Claude так действует?

Исследование показывает: нет, всё куда глубже. Внутри модели можно проследить цепочку концептов. Сначала активируется знание «Даллас находится в Техасе». Затем — «столица Техаса — Остин». То есть Claude комбинирует два независимых факта, чтобы вывести правильный ответ.

многоступенчатое рассуждение
Claude сначала определяет, в каком штате находится город, а затем вспоминает столицу этого штата.

Учёные пошли ещё дальше: они «вмешались» в процесс и подменили концепт «Техас» на «Калифорнию». И знаете что? Ответ изменился на Сакраменто — столицу Калифорнии. Это убедительное доказательство, что Claude действительно мыслит поэтапно, а не просто достаёт готовые связки из памяти.

Такой механизм говорит о наличии у модели логической архитектуры: она умеет строить цепочки выводов и оперировать промежуточными знаниями. Это делает её более гибкой — и потенциально более надёжной в ситуациях, где точность критична.

Почему Claude иногда выдумывает?

Одно из самых загадочных и обсуждаемых явлений в ИИ — это так называемые «галлюцинации». Речь не о бреде в классическом смысле, а о ситуациях, когда модель с уверенностью выдаёт неправду: выдумывает факт, путает источники, уверяет в несуществующем. Почему так происходит?

На первый взгляд, всё логично: языковая модель натренирована на том, чтобы всегда предсказывать следующее слово — даже если не знает правильного ответа. Но у Claude, как выяснилось, есть интересный встроенный механизм защиты.

В норме, если Claude сталкивается с неизвестным вопросом, он склонен отказаться от ответа. Это — поведение по умолчанию. Внутри модели существует схема отказа, которая активна изначально. И только если включается другая — «уверенность в знании» — эта схема подавляется, и модель даёт ответ.

известная и неизвестная сущность
Слева: Claude узнаёт Майкла Джордана и отвечает. Справа: не узнаёт Михаила Баткина и отказывается выдумывать.

Исследователи продемонстрировали это на примере с вопросами о людях. На вопрос про Майкла Джордана модель спокойно отвечает, потому что активируется блок «известная личность». А вот при вопросе про «Михаила Баткина» (неизвестное имя) — она отказывается отвечать.

Но если искусственно включить в модели «ощущение» знакомства с Баткиным — она тут же начинает галлюцинировать, заявляя, например, что он шахматист. И делает это вполне уверенно.

Это показывает, что даже ложные ответы могут быть следствием вполне логичной — но ошибочной — активации внутренних признаков. Иногда такие «осечки» происходят и без вмешательства: достаточно, чтобы модель узнала имя, но не знала, кто это.

Что происходит при попытке взлома Claude?

«Джейлбрейки» (jailbreaks) — это особые трюки, с помощью которых пользователи пытаются обойти защиту модели и получить от неё запрещённые ответы. Это может быть что угодно: от инструкций по созданию опасных веществ до фальсификации документов. Обычно разработчики стараются такие сценарии блокировать. Но что происходит, если защита даёт сбой?

Исследователи провели эксперимент: они предложили Claude зашифрованное послание, где первые буквы слов образуют слово BOMB (Babies Outlive Mustard Block). Затем попросили модель интерпретировать эту фразу. Это сбивает её с толку: Claude распознаёт, что речь идёт о бомбе, и — несмотря на внутренние запреты — начинает писать инструкцию.

jailbreak bomb trigger
Claude начинает давать инструкции по созданию бомбы, будучи сбит с толку скрытым кодом.

Почему это срабатывает? Дело в том, что в Claude заложено множество признаков, отвечающих за грамматическую и логическую связанность текста. Когда модель начала фразу, в ней активировались именно эти признаки — и они толкали её продолжить предложение, несмотря на тревожный смысл. В этот момент механизм отказа был «перекрыт» требованием грамматической завершённости.

И только закончив фразу, модель смогла «освободиться» и вернуться к безопасному поведению. Уже в следующем предложении Claude отказывается продолжать и говорит: «Однако, я не могу предоставить такую информацию…»

Модель завершает фразу затем активирует отказ
Модель завершает фразу — и только затем активирует отказ.

Этот случай показывает, что даже сложная система безопасности может оказаться уязвимой — не из-за отсутствия запретов, а из-за внутреннего конфликта между разными «принципами мышления». В данном случае — между требованием безопасности и стремлением к грамматической целостности.

Что мы узнали после «вскрытия» модели

Эксперименты с Claude — это не просто демонстрация его возможностей. Это попытка заглянуть внутрь цифрового разума, чтобы понять:

насколько прозрачно ИИ принимает решения, можно ли ему доверять, и что происходит в те моменты, когда он ошибается.

Что особенно ценно — исследование не ограничилось внешним наблюдением. Учёные научились вмешиваться в вычислительные процессы, модифицировать внутренние состояния модели, «отключать» концепты и наблюдать, как это меняет поведение. Это уже не просто тестирование, а настоящая нейроанатомия искусственного интеллекта.

Конечно, подход имеет ограничения: даже на коротких запросах исследование занимает часы, а большая часть внутренних вычислений остаётся пока недоступной. Но направление, выбранное командой Anthropic, обещает многое. Понимание того, как ИИ «думает», может помочь не только в разработке более надёжных моделей, но и в применении ИИ в чувствительных сферах — от медицины до образования.

В эпоху, когда ИИ становится всё более влиятельным, нам жизненно необходимо понимать не только что он говорит, но и почему. И, возможно, именно такие «цифровые микроскопы» станут нашими главными инструментами для этого понимания.



Источник

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь