ChatGPT-4 Turbo умеет видеть через веб-камеру, может вас выслушать и отправить в Париж

Вроде недавно появился GPT-4, и вот на днях состоялась скромная презентация Open AI Day Dev, на которой выкатили около дюжины обновлений. В Сети давно ходили слухи о снижении цены за токены, ведь об этом говорил сам CEO компании, но представленные обновления превзошли все ожидания.

Привет! Я Марат, кофаундер современной LMS-платформы EdproBiz и эксперт по работе с нейросетями. Предлагаю оценить вышедшие обновления от Open AI и разобраться, что они означают.

1. Новая версия GPT-4 с расширенным контекстным окном вмещает 128 тысяч токенов.

Это примерно 360–365 книжных страниц. Для сравнения, еще пару дней назад платная версия вмещала всего 8 или 32 тысячи токенов. Еще немного, и GPT осилит все тома «Войны и мира».

Зачем вообще нужен этот параметр? Чем больше токенов запоминает ИИ, тем больше информации вы можете в него загружать и анализировать. И не надо по сто раз объяснять задачу. Вы словно разговариваете с экспертом, у которого очень хорошая память. Настолько хорошая, что он наизусть помнит книгу в 300+ страниц.

Теперь можно загружать в ИИ полотна текста, и он не будет ругаться и ставить ограничения! Особенно удобно будет видосики с «Ютуба» смотреть и делать по ним саммари — экономия 100500 часов. Кстати, вот ссылка на крутое расширение для быстрого просмотра видео (делает саммари) — https://glasp.co/youtube-summary.

Разработчикам это поможет реализовывать более сложные сценарии и в самом чате, и в приложениях через API.

2. Обновление базы данных. Теперь ChatGPT обладает актуальной информацией до апреля 2023 года.

3. Оптимизация производительности: новая модель Turbo стала в 3 раза дешевле для входных токенов и в 2 раза дешевле для выходных токенов по сравнению с GPT-4. Стоимость ввода составит всего 0,01 доллара за 1000 токенов по сравнению с 0,03 доллара для GPT-4. Каждый вывод будет стоить 0,03 доллара за 1000 токенов. Сэм Альтман, CEO OpenAI, слово сдержал!

Оптимизация производительности в новой модели Turbo

4. Увеличили rate limits в минуту, чтобы API Open Ai выдерживал высокую нагрузку. Если раньше приходилось делать work around с нескольких аккаунтов, то теперь можно использовать больше токенов в минуту.

Пока доступ к новой модели можно получить через API с использованием gpt-4-1106-preview. Полный выпуск ожидается в течение двух недель.

Бесплатная версия GPT-3.5 не осталась без внимания, что очень круто! Часто разработчики забивают на подобное. Что нового здесь?

По умолчанию поддерживает контекстное окно 16 КБ.
Обновлена база данных до апреля 2023 года.
Разработчики могут получить доступ к новой модели, вызвав gpt-3.5-turbo-1106 в API. Приложения, использующие имя gpt-3.5-turbo, будут автоматически обновлены до новой модели 11 декабря. Доступ к более старым моделям будет по-прежнему возможен после передачи gpt-3.5-turbo-0613 в API до 13 июня 2024 г.

Как выглядит интерфейс с новой функцией создания нейроассистента GPTs.

Для начала работы нажимаем Creat a GPTs.

На презентации нам представили конструктор GPTs. Он позволяет создавать умных помощников (агентов) без кода за 5 минут и настраивать их под себя. Если раньше надо было писать ролевые промты для ChatGPT по типу «Представь, что ты лучший маркетолог/копирайтер/тренер, и реши эту задачу», то сейчас проще создать уже обученную модель под свои задачи.

Так выглядит конструктор после выхода обновления

Если вы эксперт, вы можете загрузить свои знания и таким образом оцифровать себя в нейроассистента или нейроэксперта. Или же вы можете оцифровать другого эксперта и зарабатывать на этом: фитнес-тренера, коуча, строителя, инженера, финансиста.

Кстати, его довольно просто дообучать — нужно только загрузить информацию о своем продукте/компании, документы, переписки с клиентами или даже инструкции и литературу. И на основании ваших данных тренировать и обучать его.

Так выглядит нейроассистент. Я решил сделать коуча.

Функция загрузки своих файлов находится слева.

Самое классное, что позднее Open AI планирует выпустить собственный маркетплейс, где можно будет продавать собственных нейроассистентов и покупать чужих.

Приятный бонус : обновили интерфейс ChatGPT. Он не менялся с момента первого релиза и, возможно, кому-то уже надоел. Теперь он более стильный.

Во время презентации CEO компании продемонстрировал новые возможности GPT. ИИ успешно спланировал поездку в Париж, выбрал места для посещения, отметил их на карте и даже забронировал жилье на Airbnb.

Да, теперь пользователи могут отправлять одно сообщение с запросом нескольких действий, например: «Найти отели в районе Елисейских полей и забронировать самый дорогой». Раньше на это требовалось нескольких действий. Интеграция стала проще благодаря тому, что ChatGPT теперь может вызывать внешние функции и API.

Еще новые модели могут писать ответы в JSON-формате с высокой точностью благодаря одноименному режиму. Ранее для этого приходилось жонглировать промтами, а сейчас это встроенная функция, которая по идее должна выдавать меньше ошибок. Новый параметр API response_format позволяет модели ограничить вывод для создания синтаксически правильного объекта JSON.

Новые функции будут доступны и для GPT-4, и для GPT-3,5. Для бесплатной версии это особенно важно, ведь раньше она вообще не следовала инструкции типа «always answer in xml».

Новый API-помощник упростит разработчикам создание собственных приложений на базе ИИ. Во-первых, благодаря функции «Threads», которая позволяет не задумываться о размере контекстного окна и добавлять новые сообщения в уже существующий поток. То есть, диалоговое окно менять не надо — все будет находиться в одном контекстном окне.

Во-вторых, API-помощник способен интерпретировать и извлекать код, а также вызывать функции, позволяющий выполнять большую часть тяжелой работы, которую раньше приходилось выполнять самостоятельно.

Code Interpreter позволяет итеративно запускать код для решения сложных кодовых и математических задач и парсинга файлов.

ChatGPT отвечает сразу кодом с вычислениями на запрос обычным языком при включении режима Code Interpreter

Retrieval позволяет загружать документы прямо через API и дополнять базу знаний API-помощника, которые он получил за пределами моделей GPT.

Что это значит? Проще говоря, студенты теперь без труда смогут написать качественный диплом с упором на научную литературу и источники. Ведь они могут просто загрузить огромное количество внешней информации в GPT, а он ее структурирует согласно запросам.

Вы можете уже попробовать бета-версию Assistants API без написания кода в новом PlayGround.

Казалось бы, куда еще больше обновлений для API. Но нет. Теперь через него (API Chat Completions) передаются режимы распознавания и генерации изображения. Ранее они были доступны только в чате с ИИ. Здесь действуют отдельные тарифы: за изображение разрешением 1024x1024 OpenAI установила цену в $0.007.

Нововведение уже используют BeMyEyes, чтобы помочь слепым или слабовидящим людям выполнять повседневные задачи, вроде навигации по магазину.

Недавно энтузиасты опробовали новую функцию в ChatGPT, которая позволяет использовать веб-камеру. С помощью модели Vision были успешно распознаны бренды одежды, тип продуктов, жесты и даже экраны смартфонов. Вы можете протестировать эту функцию, если у вас есть API от ChatGPT-4V.

Разработчики могут получить доступ к этой функции, используя gpt-4-vision-preview в API. Планируют внедрить поддержку видения для основной модели GPT-4 Turbo в рамках ее обычной версии.

Думаю, большинство из вас уже успело оценить голосовое управление ChatGPT. Угадайте, что? Да, и эту функцию тоже теперь можно интегрировать через Text-to-Speech API. С ее помощью можно генерировать тексты любой сложности и объема. Пользователям доступно 6 голосов, в том числе русский. Бесплатно попробовать можно на huggingface.

Однако проблему с задержкой голосовых ответов от ИИ так и не решили.

Если честно, на фоне вышедших обновлений у меня недовольства небольшая недоработка не вызвала. Тем более что прямо на конференции продемонстрировали возможности голосового управления. По голосовой команде одного из разработчиков модель раздала всем присутствующим по $500 кредитов на аккаунт OpenAI.

ChatGPT раздал деньги

Новые модели ChatGPT Turbo оказались во всем лучше предыдущих:

они дешевле;
умнее;
обрабатывают больше информации за раз, причем способны выполнять несколько действий за один запрос;
лучше следуют инструкциям и выдают ответы сразу в JSON;
способны анализировать информацию визуально и на слух.

А главное, что обрадовало меня больше всего, — новые функции открыли большие возможности пользователям, не владеющим навыком программирования. Теперь каждый может создать себе нейропомощника без кода и за несколько минут, а потом дооубучать его на основе собственных баз знаний. Так, если вы все круто сделаете, сможете его еще и продать! Кстати, о способах монетизации я подробно делюсь здесь.

Что же будет через полгода? ChatGPT научится ходить? Будет учить нас в школах и университетах, попивать кофе в ресторане, работая на фрилансе? Делайте ваши ставки в комментариях😉 Потом проверим, кто был ближе всего к истине.

ChatGPT-4 Turbo умеет видеть через веб-камеру, может вас выслушать и отправить в Париж

Новая модель GPT-4 Turbo

Обновления GPT-3.5 Turbo

Каждому по личному нейроассистенту!

Поездка в Париж, JSON Mode и вызов внешних функций

API-помощник: поиск информации (Retrieval) и интерпретатор кода

ChatGPT научился видеть через веб-камеру: анализ и создание изображений

ChatGPT — нейросеть, которая вас выслушает. Голосовое управление и беседа

Что в итоге?