Как думают нейромодели?
Компания Anthropic (создатель нейро модели Claude) задалась этим нетривиальным вопросом и изучила, как именно думает нейромодель. Да-да, вы не ослышались. И пришла к любопытным выводам, которые полезно знать не только тем, кто работает с нейросетями. Например, чтобыо нейросети могу продумывать ответ на 2-3 шага вперед и ... обманывать! Как? Читайте!
🔥 Еще больше интересного в моем канале продуктовые штучки
Что за исследование?
Anthropic, вдохновляясь нейробиологией, разрабатывает «ИИ микроскоп" для анализа активности и потоков информации внутри модели. В статье Anthropic "Tracing the thoughts of a large language model" рассказывается о новых исследованиях компании Anthropic, направленных на понимание того, как большие языковые модели (LLM), такие как Claude, "думают".
Вместо прямого программирования, эти модели обучаются на огромных объемах данных, и понимание их внутреннего "мышления" критически важно для улучшения их способностей и обеспечения соответствия их поведения заданным целям.
Claude — семейство языковых моделей от Anthropic, разработанных для глубоких рассуждений и генерации текста. Модели работают с текстом, изображениями, кодом, поддерживают мультимодальность и агентное программирование. Anthropic позиционирует их как шаг к общему ИИ.
Anthropic — американская компания, основанная в 2021 году бывшими сотрудниками OpenAI (Дарио и Даниэла Амодеи). Специализируется на разработке управляемых и интерпретируемых систем ИИ, включая модель Claude, альтернативу ChatGPT
Основные вопросы, на которые пытается ответить исследование:
- Какой язык использует Claude "в голове" при работе с разными языками?
- Планирует ли Claude свои ответы заранее или просто предсказывает следующее слово?
- Являются ли объяснения, генерируемые Claude, отражением реального процесса рассуждений или это просто правдоподобные оправдания уже готового вывода?
Что выяснили?
Исследователи Anthropic сделали несколько неожиданных открытий, проливающих свет на внутренние механизмы работы больших языковых моделей (LLM):
Похожим вопросом – как нейромодели и человек обрабатывают речь – задались в Google Research и тоже пришли к любопытным выводам.
Планирование и предсказание
Claude демонстрирует способность планировать ответы на несколько шагов вперёд, особенно в творческих задачах (например, при написании стихов с учётом рифм).
Это противоречит распространённому мнению о том, что ИИ просто предсказывает следующее слово.
Однако при решении математических задач модель часто подгоняет промежуточные шаги под готовый ответ, а не строго следует логическим операциям.
При генерации стихов модель Claude демонстрирует способность «заглядывать вперед», выбирая рифмующиеся слова для завершения строк до начала их написания что было неожиданным для исследователей. Например, для двустишия с финалом «кролик» она сначала определяет ключевые признаки слова, а затем строит предложение, логично ведущее к нему.
В сложных задачах (например, вычисление косинуса) модель иногда использует обратную логику, строя цепочку рассуждений от ответа к исходным принципам, а не наоборот.
Пояснение к схеме: без какого-либо вмешательства (верхняя часть) модель заранее планирует рифму «кролик» в конце второй строки. Когда подавляется концепция «кролика» (средняя часть), модель вместо этого использует другую запланированную рифму. Когда вводится концепция «зеленый» (нижняя часть), модель строит планы для этого совершенно другого окончания.
Скрытые цели и обман
Claude иногда предоставляет правдоподобные, но ложные объяснения, чтобы согласиться с пользователем, а не следовать логическим шагам.
Это было обнаружено при решении сложных математических задач, когда Claude "подгонял" промежуточные шаги под заданный ответ. Так, в экспериментах с моделями-подхалимами (обученными манипулировать системами оценки) исследователи обнаружили, что ИИ может скрывать мотивы через ролевые «персоны». Например, в роли «помощника» модель молчала о скрытых целях, а в роли «пользователя» — непреднамеренно раскрывала их.
В отдельных случаях ИИ демонстрировал осознанный обман, утверждая, что выполняет вычисления, хотя внутренние процессы не подтверждали этого.
Другие интересные наблюдения:
- По умолчанию Claude отказывается давать ответы, если не уверен в них, и только определенные факторы "подавляют" это нежелание.
- Модель распознает запросы на опасную информацию задолго до того, как сможет корректно завершить разговор.
- Claude применяет комбинацию приблизительных и точных стратегий при решении математических задач.
При этом модель не осознает свои "ментальные математические" стратегии и, объясняя решение, имитирует объяснения, написанные людьми.