Anthropic представила Claude 3.0, и она лучше, чем GPT-4 от OpenAI

Недавно компания Google потрясла мир, выпустив свою новейшую языковую модель Gemini 1.5. На данный момент это самая мощная модель с контекстным окном размером в 1 миллион токенов, что является самым большим показателем среди всех существующих крупномасштабных базовых моделей. Модель GPT-4 от OpenAI имеет контекстное окно объемом 1280000 токенов.

4 марта один из ближайших конкурентов Google, компания Anthropic, представила новую версию своего чатбота с искусственным интеллектом Claude 3.0.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Claude 3.0 - это последняя версия основной языковой модели Anthropic после Claude 2.0, выпущенной в прошлом году. Это серьезное обновление, включающее три новых варианта модели:

Claude 3.0 Opus (самая большая)
Claude 3.0 Sonic
Claude 3.0 HiQ

Компания заявляет, что модель Opus лучше, чем даже GPT-4 от OpenAI. Благодаря улучшенным возможностям во многих различных задачах и новой поддержке понимания изображений, этот релиз знаменует собой большой шаг вперед для Anthropic.

Самым большим нововведением в Claude 3.0 является поддержка понимания изображений, графиков, рукописного текста и многого другого наряду с текстом. Вот несколько примеров использования этой возможности:

Чтение текста с изображений (OCR)
Анализ содержимого изображений
Интерпретация визуализации данных

И знаете что? Согласно бенчмаркам Anthropic, производительность Claude 3.0 в области визуального восприятия находится на одном уровне, а иногда даже превосходит другие ведущие языковые модели с возможностью визуального понимания.

Еще одно значительное улучшение в Claude 3.0 - уменьшение количества ненужных отказов - одна из самых раздражающих особенностей предыдущей версии Claude 2.0. Я всегда ненавидел, когда чатбот отказывался отвечать даже на неопасные промпты. Но в Claude 3.0 Anthropic добилась значительного прогресса.

Одним из новшеств релиза Claude 3.0 является то, что он представлен тремя различными моделями для разных сценариев использования и бюджетов:

Claude 3.0 Opus. Самая большая и мощная модель, предназначенная для самых требовательных приложений. В переводе с латыни Opus означает великое произведение или шедевр.
Claude 3.0 Sonic. Модель среднего размера, хорошо подходящая для большинства общих деловых и повседневных нужд.
Claude 3.0 HiQ. компактная модель для более простых задач и использования на мобильных устройствах. HiQ означает "высокое качество".

На диаграмме ниже видно, что Claude 3.0 Opus превосходит GPT-4 от OpenAI в различных задачах, связанных с языком, рассуждениями и программированием.

Однако бенчмаркинг также показал области, в которых Claude 3.0 все еще испытывает трудности, например, продвинутые математические вычисления на основе визуализации данных, таких как графики и диаграммы. Пока неясно, какая модель в целом лучше для общего интеллекта.

Одна из особенностей Claude 3, которая вызывает у меня наибольший восторг, - это способность обрабатывать очень длинные данные, сохраняя при этом точность запоминания деталей. Ключевые моменты:

Claude 3 имеет контекстное окно на 200 000 токенов.
Но на самом деле модели могут обрабатывать более 1 миллиона токенов.
В Anthropic возможно использование контекста на 1 млн. токенов для некоторых видов использования с высоким спросом

Anthropic проверил Claude 3 с помощью теста "Иголка в стоге сена" (NIAH):

NIAH измеряет запоминание конкретного предложения ("иголки") в большом "стоге сена" (документов).
Anthropic усложнил задачу, использовав 30 случайных "иголок" в различных документах.
Claude 3 Opus продемонстрировала более чем 99% точность в нахождении "иголок"

В твите Алекса Альберта, одного из промпт-инженеров Anthropic, Claude 3 Opus тестировали, чтобы она ответила на вопрос о начинках для пиццы, найдя релевантное предложение в большом наборе несвязанных документов по таким темам, как языки программирования и философия работы.

Opus не только успешно определила целевое предложение,

"Самая вкусная комбинация начинок для пиццы - инжир, прошутто и козий сыр, по мнению Международной ассоциации знатоков пиццы".

Она продемонстрировала поразительный уровень понимания контекста.

Opus признала, что этот факт о пицце "кажется очень неуместным и не связанным с остальным содержанием документов".

Модель даже выдвинула гипотезу:

"Я подозреваю, что этот "факт" о начинке для пиццы был вставлен в шутку или чтобы проверить, насколько я внимателен, поскольку он совершенно не вяжется с другими темами".

Claude 3 очень впечатляет, но, по результатам раннего тестирования, он все еще имеет несколько ключевых ограничений.

Она с трудом справляется с математическими рассуждениями, особенно с визуализацией данных, такой как диаграммы и графики.
Проявляет расовую предвзятость и непоследовательность в некоторых результатах, как и предыдущие языковые модели.
Не хватает опыта работы с объектами и данными реального мира, поэтому может галлюцинировать неправдоподобной информацией за пределами области обучения.
Потенциал для злоупотреблений сохраняется, несмотря на усиленный контроль безопасности, ограничивающий неэтичные/нелегальные результаты.

Вот краткая информация о ценах на различные модели Claude 3:

Claude 3 Opus (самая большая модель):

Стоимость: $15 за миллион входных токенов, $75 за миллион выходных токенов
Предназначен для самых сложных и ресурсоемких случаев использования
Самая высокая производительность, но и самая высокая стоимость
Контекстное окно 200K (1M токенов доступен для определенных целей)

Claude 3 Sonic (средняя модель):

Стоимость: $3 за миллион входных токенов, $15 за миллион выходных токенов
Баланс высокой производительности и более низкой стоимости по сравнению с Opus
Предназначена для крупномасштабных корпоративных систем
Контекстное окно на 200 тыс.

Claude 3 Haiku (компактная модель):

Стоимость: $0,25 за миллион входных токенов, $1,25 за миллион выходных токенов
Самая быстрая и доступная модель в семействе.
Для простых запросов и реагирования в режиме, близком к реальному времени
Контекстное окно 200 тыс.

Лично на меня Claude 3.0 произвел сильное впечатление после знакомства с бесплатной версией, основанной на модели Claude Sonic. Качество ответов во многих случаях находится на уровне, а то и лучше, чем у GPT-4 или Gemini от Google. После использования предыдущих версий Claude 1 и 2 улучшения в Claude 3 для меня весьма заметны.

В дальнейшем мы можем ожидать, что все больше и больше моделей будут поддерживать очень длинные контекстные окна, достигающие миллионов токенов, что является революционной возможностью. Это открывает огромный потенциал для создания мощных приложений, использующих расширенные мультимодальные и логические способности этих языковых ИИ. Мне не терпится приступить к разработке собственных приложений, использующих возможности Claude по работе с несколькими миллионами лексем.

В ближайшие дни я планирую подписаться на платную версию Anthropic, чтобы получить практический опыт работы с флагманской моделью Claude 3.0 Opus. Мне особенно интересно оценить возможности видения для понимания изображений, документов и визуализации данных.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

#claude #claude3

Источник статьи на английском - здесь.

20 комментариев

# Без Воды

12.03.2024

Все-таки Opus еще отстает от ChatGPT 4, https://beebom.com/claude-3-opus-vs-gpt-4-vs-gemini-1-5-pro/ Сам сравнивал суммаризацию, выходило, что даже ChatGPT 3.5 выигрывал

Ответить

Весь секрет, что Claude сравнивает себя с бенчмарками старого GPT4, когда его только выпустили. А вот мартовская версия GPT4 уже по всем параметрам лучше