Недавняя презентация GPT-4o от OpenAI заложила основу для новой эры в языковых моделях ИИ и в том, как мы с ними взаимодействуем.Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.Самым впечатляющим моментом стала поддержка живого взаимодействия с ChatGPT с перерывами в разговоре.Несмотря на некоторые заминки во время демонстрации, я не могу не чувствовать себя потрясенным тем, чего добилась команда.Самое приятное, что сразу после демонстрации OpenAI разрешила доступ к API GPT-4o.ChatGPT на русском - бот, который работает в Телеграм без ВПН.С помощью бота вы можете пользоваться DALLE-3 и ChatGPT на русском языке. Здесь все как обычно - пишете запрос, и быстро получаете ответ.В этой статье я расскажу о независимом анализе способности к классификации моделей GPT-4o, GPT 4 и Gemini и Unicorn от Google на основе созданного мной набора данных на английском языке.Какие из этих моделей наиболее сильны в понимании английского языка?Что нового в GPT-4o?На первом месте стоит концепция Omni-модели, предназначенной для восприятия и обработки текста, аудио и видео.Похоже, что OpenAI сместила акцент на развитии доступности GPT-4 для широких масс, сделав языковые модели уровня GPT-4 доступными даже для бесплатных пользователей.OpenAI также объявила, что GPT-4o включает в себя улучшенное качество и скорость на более чем 50 языках, обещая более полное и глобально доступное использование ИИ по более низкой цене.Они также упомянули, что платные подписчики получат в пять раз больше возможностей по сравнению с бесплатными пользователями.Кроме того, будет выпущена версия ChatGPT для настольных компьютеров, чтобы облегчить массовому пользователю работу с аудио-, визуальными и текстовыми интерфейсами в режиме реального времени.Как использовать API GPT-4oНовая модель GPT-4o повторяет существующий API от OpenAI, что делает ее совместимой с предыдущими версиями и простой в использовании.from openai import OpenAI OPENAI_API_KEY = "<your-api-key>" def openai_chat_resolve(response: dict, strip_tokens = None) -> str: if strip_tokens is None: strip_tokens = [] if response and response.choices and len(response.choices) > 0: content = response.choices[0].message.content.strip() if content is not None or content != '': if strip_tokens: for token in strip_tokens: content = content.replace(token, '') return content raise Exception(f'Cannot resolve response: {response}') def openai_chat_request(prompt: str, model_name: str, temperature=0.0): message = {'role': 'user', 'content': prompt} client = OpenAI(api_key=OPENAI_API_KEY) return client.chat.completions.create( model=model_name, messages=[message], temperature=temperature, ) response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13") answer = openai_chat_resolve(response) print(answer)GPT-4o также доступен через интерфейс ChatGPT:Официальная оценкаВ блоге OpenAI опубликованы оценки известных наборов данных, таких как MMLU и HumanEval.Как видно из графика, производительность GPT-4o можно отнести к самым современным показателям в этой области, что звучит очень многообещающе, учитывая, что новая модель дешевле и быстрее.Однако за последний год я видел множество моделей, разработчики которых утверждали, что те имеют самую современную производительность в области языка на известных наборах данных.На самом деле некоторые из этих моделей были частично обучены (или переобучены) на этих открытых наборах данных, что привело к нереальным оценкам на лидбордах. Если вам интересно, посмотрите эту статью.Поэтому важно проводить независимый анализ производительности этих моделей на менее известных наборах данных - таких, как тот, который создал я 😄.Мой тестовый набор данных 🔢.Я создал тематический набор данных, который мы можем использовать для оценки эффективности классификации различных LLM.Набор состоит из 200 предложений, распределенных по 50 темам, некоторые из которых тесно связаны между собой, чтобы усложнить задачу классификации.Я вручную создал и промаркировал весь набор данных на английском языке.Затем я использовал GPT4 (gpt-4-0613) для перевода набора данных на несколько языков.Однако в ходе этой оценки мы будем оценивать только английскую версию набора данных - это означает, что на результаты не должны повлиять потенциальные погрешности, возникающие из-за использования одной и той же языковой модели для создания набора данных и предсказания тем.Посмотрите на набор данных сами.Результаты работы 📊Я решил оценить следующие модели:GPT-4o: gpt-4o-2024-05-13GPT-4: gpt-4-0613GPT-4-Turbo: gpt-4-turbo-2024-04-09Gemini 1.5 Pro: gemini-1.5-pro-preview-0409Gemini 1.0: gemini-1.0-pro-002Palm 2 Unicorn: text-unicorn@001Задача, поставленная перед языковыми моделями, - сопоставить каждое предложение в наборе данных с правильной темой.Это позволяет нам вычислить показатель точности для каждого языка и коэффициент ошибок каждой модели.Поскольку модели в основном классифицируют правильно, я построил график коэффициента ошибок для каждой модели.Помните, что более низкий коэффициент ошибок указывает на лучшую работу модели.Исходя из графика, можно сделать вывод, что GPT-4o имеет самый низкий процент ошибок среди всех моделей - всего 2 ошибки.Мы также видим, что Palm 2 Unicorn, GPT-4 и Gemini 1.5 близки к GPT-4o, что свидетельствует об их высокой производительности.Интересно, что GPT-4 Turbo работает аналогично GPT-4-0613. Дополнительную информацию о моделях OpenAI можно найти на странице моделей.И наконец, Gemini 1.0 отстает, чего и следовало ожидать, учитывая ее ценовой диапазон.Анализ, проведенный на уникальном наборе данных по английскому языку, раскрывает современные возможности этих передовых языковых моделей.GPT-4o, последнее предложение OpenAI, отличается самым низким уровнем ошибок среди протестированных моделей, что подтверждает заявления OpenAI о его производительности.ИИ-сообщество и пользователи должны продолжать проводить независимые оценки с использованием различных наборов данных, так как они помогают получить более четкое представление о практической эффективности модели, чем это позволяют сделать стандартизированные бенчмарки.Обратите внимание, что набор данных довольно мал, и результаты могут отличаться в зависимости от набора данных. В работе использовался только английский набор данных, а сравнение на нескольких языках придется подождать до следующего раза.Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.#chatgpt #chatgpt4 #ai Источник статьи на английском - здесь.
Тут в соседней ветке сравнивают ChatGPT с YandexGPT. Исследование заказано компанией Яндекс и кто там победитель - понятно.
А что скажет независимый эксперт Алексей?
А вы разве не пользуетесь ии чтобы сравнить, вам нужно мнение других, по-моему всем и так понятен победитель!
Я не эксперт, я энтузиаст, и ничего говорить не нужно - на графике все видно ).
Побеждает сервис loading.express
В какой номинации, интересно? )