Модель ИИ рассуждений OpenAI иногда «думает» на китайском языке (и не только), и никто не знает, почему

Этот интересный феномен обнаружили пользователи, и пока все гадают, почему так. Расскажу о наиболее вероятных причинах.

🔥 Еще больше интересного в моем канале продуктовые штучки

Что происходит?

Вскоре после того, как OpenAI выпустила o1, свою первую «размышляющую» модель ИИ, пользователи начали замечать любопытный феномен. Модель иногда начинает «думать» на китайском, персидском или каком-то другом языке — даже когда ей задают вопрос на английском. При этом сам ответ выдается на английском.

Пользователи гадают о причинах рассуждений на иностранном языке. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2FRishabJainK%2Fstatus%2F1877157192727466330&postId=1755019" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Пользователи гадают о причинах рассуждений на иностранном языке. Источник

OpenAI не предоставила объяснения странному поведению o1, и даже пока не признала его. Так что же может происходить?

Почему так происходит?

Эксперты по ИИ не знают, но у них есть несколько версий.

Несколько человек, включая генерального директора Hugging Face Клемента Деланга, намекнули на тот факт, что модели рассуждений, такие как o1, обучаются на данных, содержащих много китайских иероглифов.

Тед Сяо, исследователь из Google DeepMind, заявил, что компании, включая OpenAI, используют сторонние китайские сервисы маркировки данных.

«[Такие лаборатории, как] OpenAI и Anthropic, используют [сторонние] сервисы маркировки данных для данных рассуждений на уровне доктора наук в области науки, математики и кодирования. [В] целях доступности рабочей силы экспертов и соображений стоимости многие из этих поставщиков данных базируются в Китае». — написал Сяо в сообщении на X.

Однако другие эксперты не верят в версию о маркировке данных на китайском языке. Они указывают, что o1 с такой же вероятностью переключится на хинди, тайский или другой язык, пытаясь найти решение.

Скорее, говорят эти эксперты, o1 и другие модели рассуждений могут просто использовать языки, которые они считают наиболее эффективными для достижения цели (или, как вариант, галлюцинировать).

«Модель не знает, что такое язык, или что языки различаются. Для нее это просто текст», — сказал Мэтью Гуздиал, исследователь ИИ и доцент Университета Альберты, в интервью TechCrunch.

Действительно, модели не обрабатывают слова напрямую. Вместо этого они используют токены. Токенами могут быть слова, например «fantastic». Или слоги, например «fan», «tas» и «tic». Или даже отдельные символы в словах — например, «f», «a», «n», «t», «a», «s», «t», «i», «c».

Течжень Ван, инженер-программист ИИ стартапа Hugging Face, согласен с Гуздиалом в том, что несоответствия языка моделей рассуждений могут быть объяснены ассоциациями, которые модели создают во время обучения.

«Охватывая каждый лингвистический нюанс, мы расширяем мировоззрение модели и позволяем ей учиться на основе всего спектра человеческих знаний. Например, я предпочитаю заниматься математикой на китайском языке, потому что каждая цифра — это всего лишь один слог, что делает вычисления четкими и эффективными. Но когда дело доходит до таких тем, как бессознательная предвзятость, я автоматически переключаюсь на английский, в основном потому, что именно там я впервые узнал и усвоил эти идеи», — написал Ван в посте на X

Модели — это вероятностные сущности, в конце концов. Обученные на многих примерах, они изучают закономерности для прогнозирования, например, как «кому» в электронном письме обычно предшествует «это может касаться».

Конечно, мы не можем знать наверняка. Пока OpenAI не ответит, нам остается только гадать, почему o1 думает о песнях на французском, а о синтетической биологии — на китайском.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

44
Начать дискуссию