ChatGPT-4 Turbo умеет видеть через веб-камеру, может вас выслушать и отправить в Париж
Вроде недавно появился GPT-4, и вот на днях состоялась скромная презентация Open AI Day Dev, на которой выкатили около дюжины обновлений. В Сети давно ходили слухи о снижении цены за токены, ведь об этом говорил сам CEO компании, но представленные обновления превзошли все ожидания.
Привет! Я Марат, кофаундер современной LMS-платформы EdproBiz и эксперт по работе с нейросетями. Предлагаю оценить вышедшие обновления от Open AI и разобраться, что они означают.
Новая модель GPT-4 Turbo
1. Новая версия GPT-4 с расширенным контекстным окном вмещает 128 тысяч токенов.
Это примерно 360–365 книжных страниц. Для сравнения, еще пару дней назад платная версия вмещала всего 8 или 32 тысячи токенов. Еще немного, и GPT осилит все тома «Войны и мира».
Зачем вообще нужен этот параметр? Чем больше токенов запоминает ИИ, тем больше информации вы можете в него загружать и анализировать. И не надо по сто раз объяснять задачу. Вы словно разговариваете с экспертом, у которого очень хорошая память. Настолько хорошая, что он наизусть помнит книгу в 300+ страниц.
Теперь можно загружать в ИИ полотна текста, и он не будет ругаться и ставить ограничения! Особенно удобно будет видосики с «Ютуба» смотреть и делать по ним саммари — экономия 100500 часов. Кстати, вот ссылка на крутое расширение для быстрого просмотра видео (делает саммари) — https://glasp.co/youtube-summary.
Разработчикам это поможет реализовывать более сложные сценарии и в самом чате, и в приложениях через API.
2. Обновление базы данных. Теперь ChatGPT обладает актуальной информацией до апреля 2023 года.
3. Оптимизация производительности: новая модель Turbo стала в 3 раза дешевле для входных токенов и в 2 раза дешевле для выходных токенов по сравнению с GPT-4. Стоимость ввода составит всего 0,01 доллара за 1000 токенов по сравнению с 0,03 доллара для GPT-4. Каждый вывод будет стоить 0,03 доллара за 1000 токенов. Сэм Альтман, CEO OpenAI, слово сдержал!
4. Увеличили rate limits в минуту, чтобы API Open Ai выдерживал высокую нагрузку. Если раньше приходилось делать work around с нескольких аккаунтов, то теперь можно использовать больше токенов в минуту.
Пока доступ к новой модели можно получить через API с использованием gpt-4-1106-preview. Полный выпуск ожидается в течение двух недель.
Обновления GPT-3.5 Turbo
Бесплатная версия GPT-3.5 не осталась без внимания, что очень круто! Часто разработчики забивают на подобное. Что нового здесь?
- По умолчанию поддерживает контекстное окно 16 КБ.
- Обновлена база данных до апреля 2023 года.
- Разработчики могут получить доступ к новой модели, вызвав gpt-3.5-turbo-1106 в API. Приложения, использующие имя gpt-3.5-turbo, будут автоматически обновлены до новой модели 11 декабря. Доступ к более старым моделям будет по-прежнему возможен после передачи gpt-3.5-turbo-0613 в API до 13 июня 2024 г.
Каждому по личному нейроассистенту!
Как выглядит интерфейс с новой функцией создания нейроассистента GPTs.
Для начала работы нажимаем Creat a GPTs.
На презентации нам представили конструктор GPTs. Он позволяет создавать умных помощников (агентов) без кода за 5 минут и настраивать их под себя. Если раньше надо было писать ролевые промты для ChatGPT по типу «Представь, что ты лучший маркетолог/копирайтер/тренер, и реши эту задачу», то сейчас проще создать уже обученную модель под свои задачи.
Если вы эксперт, вы можете загрузить свои знания и таким образом оцифровать себя в нейроассистента или нейроэксперта. Или же вы можете оцифровать другого эксперта и зарабатывать на этом: фитнес-тренера, коуча, строителя, инженера, финансиста.
Кстати, его довольно просто дообучать — нужно только загрузить информацию о своем продукте/компании, документы, переписки с клиентами или даже инструкции и литературу. И на основании ваших данных тренировать и обучать его.
Функция загрузки своих файлов находится слева.
Самое классное, что позднее Open AI планирует выпустить собственный маркетплейс, где можно будет продавать собственных нейроассистентов и покупать чужих.
Приятный бонус : обновили интерфейс ChatGPT. Он не менялся с момента первого релиза и, возможно, кому-то уже надоел. Теперь он более стильный.
Поездка в Париж, JSON Mode и вызов внешних функций
Во время презентации CEO компании продемонстрировал новые возможности GPT. ИИ успешно спланировал поездку в Париж, выбрал места для посещения, отметил их на карте и даже забронировал жилье на Airbnb.
Да, теперь пользователи могут отправлять одно сообщение с запросом нескольких действий, например: «Найти отели в районе Елисейских полей и забронировать самый дорогой». Раньше на это требовалось нескольких действий. Интеграция стала проще благодаря тому, что ChatGPT теперь может вызывать внешние функции и API.
Еще новые модели могут писать ответы в JSON-формате с высокой точностью благодаря одноименному режиму. Ранее для этого приходилось жонглировать промтами, а сейчас это встроенная функция, которая по идее должна выдавать меньше ошибок. Новый параметр API response_format позволяет модели ограничить вывод для создания синтаксически правильного объекта JSON.
Новые функции будут доступны и для GPT-4, и для GPT-3,5. Для бесплатной версии это особенно важно, ведь раньше она вообще не следовала инструкции типа «always answer in xml».
API-помощник: поиск информации (Retrieval) и интерпретатор кода
Новый API-помощник упростит разработчикам создание собственных приложений на базе ИИ. Во-первых, благодаря функции «Threads», которая позволяет не задумываться о размере контекстного окна и добавлять новые сообщения в уже существующий поток. То есть, диалоговое окно менять не надо — все будет находиться в одном контекстном окне.
Во-вторых, API-помощник способен интерпретировать и извлекать код, а также вызывать функции, позволяющий выполнять большую часть тяжелой работы, которую раньше приходилось выполнять самостоятельно.
Code Interpreter позволяет итеративно запускать код для решения сложных кодовых и математических задач и парсинга файлов.
Retrieval позволяет загружать документы прямо через API и дополнять базу знаний API-помощника, которые он получил за пределами моделей GPT.
Что это значит? Проще говоря, студенты теперь без труда смогут написать качественный диплом с упором на научную литературу и источники. Ведь они могут просто загрузить огромное количество внешней информации в GPT, а он ее структурирует согласно запросам.
Вы можете уже попробовать бета-версию Assistants API без написания кода в новом PlayGround.
ChatGPT научился видеть через веб-камеру: анализ и создание изображений
Казалось бы, куда еще больше обновлений для API. Но нет. Теперь через него (API Chat Completions) передаются режимы распознавания и генерации изображения. Ранее они были доступны только в чате с ИИ. Здесь действуют отдельные тарифы: за изображение разрешением 1024x1024 OpenAI установила цену в $0.007.
Нововведение уже используют BeMyEyes, чтобы помочь слепым или слабовидящим людям выполнять повседневные задачи, вроде навигации по магазину.
Недавно энтузиасты опробовали новую функцию в ChatGPT, которая позволяет использовать веб-камеру. С помощью модели Vision были успешно распознаны бренды одежды, тип продуктов, жесты и даже экраны смартфонов. Вы можете протестировать эту функцию, если у вас есть API от ChatGPT-4V.
Разработчики могут получить доступ к этой функции, используя gpt-4-vision-preview в API. Планируют внедрить поддержку видения для основной модели GPT-4 Turbo в рамках ее обычной версии.
ChatGPT — нейросеть, которая вас выслушает. Голосовое управление и беседа
Думаю, большинство из вас уже успело оценить голосовое управление ChatGPT. Угадайте, что? Да, и эту функцию тоже теперь можно интегрировать через Text-to-Speech API. С ее помощью можно генерировать тексты любой сложности и объема. Пользователям доступно 6 голосов, в том числе русский. Бесплатно попробовать можно на huggingface.
Однако проблему с задержкой голосовых ответов от ИИ так и не решили.
Если честно, на фоне вышедших обновлений у меня недовольства небольшая недоработка не вызвала. Тем более что прямо на конференции продемонстрировали возможности голосового управления. По голосовой команде одного из разработчиков модель раздала всем присутствующим по $500 кредитов на аккаунт OpenAI.
Что в итоге?
Новые модели ChatGPT Turbo оказались во всем лучше предыдущих:
- они дешевле;
- умнее;
- обрабатывают больше информации за раз, причем способны выполнять несколько действий за один запрос;
- лучше следуют инструкциям и выдают ответы сразу в JSON;
- способны анализировать информацию визуально и на слух.
А главное, что обрадовало меня больше всего, — новые функции открыли большие возможности пользователям, не владеющим навыком программирования. Теперь каждый может создать себе нейропомощника без кода и за несколько минут, а потом дооубучать его на основе собственных баз знаний. Так, если вы все круто сделаете, сможете его еще и продать! Кстати, о способах монетизации я подробно делюсь здесь.
Что же будет через полгода? ChatGPT научится ходить? Будет учить нас в школах и университетах, попивать кофе в ресторане, работая на фрилансе? Делайте ваши ставки в комментариях😉 Потом проверим, кто был ближе всего к истине.