Новая модель GPT-4o от OpenAI умеет петь и отвечать в режиме реального времени
🔥Телеграм-бот SYNTX предоставляет доступ к более чем 40 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуй бесплатно!
🎙 Общайтесь в одном диалоговом окне с GPT4o/Gemini/Claude, выход в интернет, работа с файлами, неограниченное количество символов!
👨🎨 Создавайте изображения в MidJourney, DALL-E 3 и Ideogram
🆕 Любой образ, в любой локации с вашим фото сделает ФотоМастер
🎞 Генерируйте видео текстом или по картинке
🎵 Сочиняй мировые хиты с помощью Suno
🖼 Редактор с 12 различными ИИ-инструментами для ретуши фото
☝️Это только часть функций, доступных в SYNTX!
В то время как в воздухе витали догадки о возможности появления революционной функции поиска, способной бросить вызов доминированию Google, или о появлении долгожданной модели GPT-5, фактический анонс прошел в несколько ином, но не менее захватывающем направлении.
Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
ChatGPT на русском - платный бот, который работает в Телеграм без ВПН.
С помощью бота вы можете пользоваться ChatGPT на русском языке. Здесь все как обычно - пишете запрос, и быстро получаете ответ. Бот доступен в бесплатной версии.
OpenAI представила GPT-4o, новую модель, которая умнее, дешевле, быстрее, лучше в кодировании, мультимодальнее и умопомрачительно быстра.
Для OpenAI было разумным решением продемонстрировать новые функции в прямом эфире на скорости 1х, а не на заранее записанном видео (в отличие от Google).
Итак, что именно представляет собой GPT-4o?
Прежде всего, "o" в GPT-4o означает "omni", что означает поддержку мультимодальности модели как для входных, так и для выходных данных.
GPT-4o может обрабатывать и генерировать текст, аудио и изображения в режиме реального времени. Это значительный шаг на пути к более естественному взаимодействию человека и компьютера: модель может принимать любые комбинации текстовых, аудио- и графических данных и генерировать соответствующие выходные данные.
Пожалуй, самым заметным достижением GPT-4o является то, что она практически в режиме реального времени отвечает на запросы голосового помощника.
Еще одним самым заметным достижением GPT-4o является его работа в качестве голосового помощника практически в режиме реального времени. Он может реагировать на входные звуковые данные в среднем за 232 миллисекунды, что сопоставимо с временем реакции человека при разговоре.
Такое молниеносное время отклика в сочетании со способностью GPT-4 Turbo работать с английским текстом и кодом, демонстрируя при этом значительные улучшения в неанглийских языках, делает GPT-4o переломным событием в мире разговорного ИИ.
И что самое приятное? API значительно быстрее и на 50 % дешевле.
Что нового в GPT-4o?
Вот список новых возможностей GPT-4o.
1. Ответы в реальном времени
Когда вы общаетесь с GPT-4o, создается ощущение, что вы разговариваете с реальным человеком. Она может подстроиться под ваш тон, пошутить и даже спеть в унисон.
Благодаря такому естественному и быстрому общению чатбот становится намного интереснее и увлекательнее. Но как OpenAI удалось добиться такого результата?
До появления GPT-4o голосовой режим ChatGPT использовал трехступенчатый процесс: звук транскрибировался в текст, затем обрабатывался GPT-3.5 или GPT-4 и, наконец, снова преобразовывался в звук. Это приводило к замедлению времени отклика (2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4) и потере такой информации, как тон и фоновый шум.
В GPT-4o используется единая ИИ-модель, обученная обрабатывать текст, изображения и аудио одновременно. Такая непрерывная обработка позволяет GPT-4o отвечать гораздо быстрее и естественнее, улавливая нюансы, которые предыдущие модели упускали.
2. Улучшенное мышление
Помимо впечатляющей скорости, GPT-4o также достигла высоких результатов в рассуждениях. Она показала рекордный результат в 88,7 % в бенчмарке COT MMLU, проверяющем общие знания, и 87,2 % в традиционном бенчмарке No-CoT MMLU с 5 попытками - еще один рекорд.
Однако стоит отметить, что другие модели ИИ, такие как Llama3 400b, все еще находятся в стадии обучения и в будущем могут превзойти GPT-4o.
GPT-4o также продемонстрировала значительные успехи как в математических рассуждениях, так и в визуальном восприятии.
В бенчмарке M3Exam, который оценивает производительность при решении стандартных тестовых вопросов из разных стран, часто включающих диаграммы и рисунки, GPT-4o превзошел GPT-4 на всех тестируемых языках.
Что касается чистого видения, то GPT-4o показал самые высокие результаты в нескольких ключевых бенчмарках, включая MMMU, MathVista и ChartQA, причем в режиме 0-shot.
Перейдите в блог с анонсами, чтобы ознакомиться с некоторыми примерами, демонстрирующими возможности GPT-4o.
3. GPT-4o можно использовать бесплатно
Одним из самых удивительных и захватывающих аспектов GPT-4o является то, что она будет бесплатной для использования. Это очень важно, учитывая, что бесплатная версия ChatGPT с моделью GPT-3.5 привлекла 100 миллионов пользователей. Если GPT-4o станет еще умнее, то потенциально она сможет привлечь еще 100 миллионов пользователей или даже больше.
Пользователи Free-уровня по умолчанию будут переведены на GPT-4o с ограничением на количество сообщений, которые они могут отправить с помощью GPT-4o, которое будет зависеть от текущего использования и спроса. При недоступности пользователи бесплатного уровня будут переведены обратно на GPT-3.5. - OpenAI
Честно говоря, довольно интригующе, как OpenAI предлагает эту новую и улучшенную модель бесплатно, не теряя при этом значительной суммы денег, особенно учитывая огромные вычислительные мощности, необходимые для работы этих языковых моделей.
Вот несколько мыслей о том, почему они сделали ее бесплатной:
- Возможно, им не хватает данных для обучения из интернета, а данные для обучения пользовательских ИИ - лучший источник. Бесплатный доступ к новой модели может позволить им получить гораздо более качественные данные для использования.
- Возможно, их последнее партнерство с NVIDIA дало им толчок в плане вычислительной мощности, что позволило им запускать эти модели более эффективно и с меньшими затратами.
- Возможно, они пытаются вернуть клиентов, которые отказались от ChatGPT и используют лучшие альтернативы, такие как Anthropic's Claude.
GPT-4 Turbo в сравнении с GPT-4o
Для лучшего понимания, вот как GPT-4o сравнивается с GPT-4 turbo. GPT-4o обладает тем же высоким интеллектом, но быстрее, дешевле и имеет более высокие ограничения по скорости, чем GPT-4 Turbo:
- Цена. GPT-4o на 50% дешевле, чем GPT-4 Turbo, и составляет $5 за миллион входных токенов и $15 за миллион выходных токенов).
- Лимиты. Лимиты скорости GPT-4o в 5 раз выше, чем у GPT-4 Turbo - до 10 миллионов токенов в минуту.
- Скорость. GPT-4o в 2 раза быстрее GPT-4 Turbo.
- Видение. Возможности зрения GPT-4o превосходят GPT-4 Turbo в тестах, связанных с возможностями видения.
- Многоязычность. GPT-4o имеет улучшенную поддержку неанглийских языков по сравнению с GPT-4 Turbo.
GPT-4o в настоящее время имеет контекстное окно 128k символов, а ее дата окончания обучения - октябрь 2023 года.
Цена и доступность GPT-4o
Сейчас я не вижу опции GPT-4o в бесплатной версии ChatGPT. Но если вы перейдете в OpenAI Playground, то новая модель уже доступна.
Согласно твиту Сэма Альтмана, новый голосовой режим будет запущен в ближайшие недели для пользователей ChatGPT Plus.
- Вход: $5,00 за 1 миллион токенов
- Выход: $15,00 за 1 миллион токенов
Обратите внимание, что доступ к моделям GPT-4, GPT-4 Turbo и GPT-4o через OpenAI API предоставляется только после оплаты $5 и более (уровень использования 1).
В целом, это была впечатляющая демонстрация GPT-4o, особенно в том, что она бесплатна в использовании и впечатляет быстротой голосовых ответов.
Теперь вопрос в том, привлечет ли она больше пользователей? Безусловно, да. Новая модель бесплатна в использовании, а голосовые ответы в реальном времени определенно заслуживают внимания.
Однако стоит ли обновление 20 долларов? Я не могу сказать, что оно того стоит, потому что мне еще нужно провести больше практических тестов этой модели и понять, действительно ли она лучше, чем Claude Opus. Кроме того, поскольку Google может выпустить несколько крупных обновлений для Gemini во время завтрашнего Google IO, ажиотаж вокруг GPT-4o может оказаться недолгим.
Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Источник статьи на английском - здесь.