Искусственный интеллект превзойдет человеческий к 2047 году. Оценка текущего состояния всех LLM моделей

Искусственный интеллект наступает: Взгляд на рейтинги и прогресс ИИ

Крутой лидерборд нейросеток сотканный из «полевых» оценок реальных людей. Лидирует gpt4 и где-то рядом Gemini PRO.
Сравнивают попарно реальные люди, рейтинг вычисляется по системе ЭЛО.

Закрытые проприетарные модели, контролируемые Google, Anthropic и OpenAI, показывают наилучшие результаты, а открытые весовые модели отстают от них довольно сильно. (Однако самая крупная версия открытой весовой модели Llama 3 от Meta набирает 86 % по MMLU, что делает ее классом GPT-4, но она еще не выпущена).

Искусственный интеллект превзойдет человеческий к 2047 году. Оценка текущего состояния всех LLM моделей

huggingface.co

LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys

huggingface.co

LLM Performance Leaderboard - a Hugging Face Space by ArtificialAnalysis

chat.lmsys.org

Arena Leaderboard. Это сайт, который позволяет вам задать вопрос и сравнить два ответа двух разных LLM (это весело, попробуйте по ссылке). Это также довольно хороший способ сравнить модели, поскольку он измеряет «вибрации» - насколько хороши модели в более чем миллионе бесед, субъективно. Сайт использует систему рейтинга ELO, из��ачально разработанную для оценки шахматистов, для сравнения производительности различных языковых моделей на основе предпочтений пользователей. Ниже вы можете увидеть, как модели соотносятся по количеству побед. Несмотря на то, что этот показатель сильно отличается от MMLU, результаты очень похожи.

Компания Artificial Analysis разработала рейтинговую систему, оценивающую стоимость, производительность и качество более 100 LLM, чтобы обеспечить удобный выбор модели, соответствующей индивидуальным потребностям.
Параметры для оценивания LLM:
🟡Качество: комплексный индекс, рассчитанный на основе метрик, таких как MMLU, MT-Bench, оценки HumanEval, а также рейтинг Chatbot Arena;
🟡Цена: метрики, учитывающие цену на вход/выход на один токен, а также среднюю цену для сравнения провайдеров хостинга. Стоимость представляет собой взвешенную смесь цен на входные и выходные токены в соотношении 3:1;
🟡Окно контекста: максимальное количество комбинированных входных и выходных токенов;
🟡Скорость: токены/с, получаемые во время генерации моделью токенов. Median, P5, P25, P75 и P95;
🟡Задержка: время до первого полученного токена, измеренное в секундах, после отправки запроса через API. Median, P5, P25, P75 и P95.

За последние годы искусственный интеллект (ИИ) совершил невероятный скачок в развитии. Компании-гиганты вроде OpenAI, Google, Microsoft и многие другие вкладывают миллиарды долларов в создание все более продвинутых систем ИИ. Их конечная цель - достичь искусственного общего интеллекта (ИОИ, AGI), машинного интеллекта, способного превзойти человека во всех сферах деятельности.

Хотя создание полноценного ИОИ по-прежнему находится в области научной фантастики, современные системы ИИ уже демонстрируют способности, превосходящие человеческие, в некоторых областях. Это явление, называемое "сверхчеловеческой" производительностью ИИ, особенно интересно тем, что касается задач, которые, как считалось ранее, требуют человеческого суждения, эмпатии и креативности.

Например, исследования показали, что ИИ на 87% более успешно убеждает людей в определенной точке зрения, чем средний человек. GPT-4, современная языковая модель от OpenAI, лучше большинства людей помогает преодолеть трудные эмоциональные ситуации, демонстрируя более высокую эффективность, оригинальность подхода и эмпатию. В другом исследовании ИИ генерировал идеи для стартапов, которые внешние эксперты сочли более качественными, чем идеи студентов бизнес-школ.

В медицинской сфере ИИ также продемонстрировал впечатляющие результаты. В одном эксперименте актеры, изображавшие пациентов, общались по текстовым сообщениям с врачами первичного звена и новой медицинской системой ИИ. Эксперты-врачи оценивали систему ИИ выше реальных докторов по 28 из 32 критериев, включая сочувствие и клиническое суждение.

Эти примеры наглядно иллюстрируют, насколько невероятным является быстрый прогресс ИИ. Тем не менее, способности современных систем остаются неравномерными и ограниченными. ИИ может генерировать блестящие бизнес-идеи, но у него возникают проблемы с написанием сложного программного кода. Он хорошо справляется с медицинскими диагнозами, но может допускать ошибки в простых математических расчетах при выписке рецептов.

Этот "неровный фронтир" ограничений ИИ означает, что пока лучший подход - это использование ИИ в качестве "ко-интеллекта", инструмента для повышения человеческой производительности. Человек выполняет задачи, в которых ИИ слаб, опираясь на системы ИИ в тех областях, где они демонстрируют превосходство.

Но сами компании, разрабатывающие ИИ, нацелены на создание систем, способных превзойти человека во всех сферах деятельности - т.е. настоящего ИОИ. Поэтому важно отслеживать, насколько быстро и в каких областях растут возможности ИИ.

Лидерборды и рейтинги ИИ Одним из способов оценки прогресса ИИ являются рейтинги и лидерборды, сравнивающие производительность различных моделей на основе общих бенчмарков и тестов. Наиболее распространенным бенчмарком является MMLU (Многозадачный взаимосвязанный тест на обучение) - сложный тест на общие знания, охватывающий широкий круг тем.

Согласно данным, собранным исследователем Максимом Лабонном, графики результатов ИИ в MMLU демонстрируют устойчивый рост со временем. Чем больше размер языковой модели (то есть чем больше данных использовалось для ее обучения), тем лучше она справляется с тестом. Крупнейшие открытые модели, такие как GPT-4, Gemini и Claude, в настоящее время значительно превосходят средние человеческие результаты и приближаются к уровню экспертов в 90% правильных ответов.

Однако MMLU имеет ряд недостатков как измерительный инструмент. Он состоит из очень специфических и сложных вопросов, поэтому неясно, что именно он оценивает. Кроме того, существует риск переобучения – языковые модели могли быть обучены на самих вопросах MMLU, что позволило им эффективно "запомнить" правильные ответы. Также сам тест может содержать ошибки, делающие 100% результат недостижимым.

Другой популярный ресурс для сравнения ИИ - Arena Leaderboard. Этот сайт позволяет сравнивать ответы разных языковых моделей на одни и те же запросы, основываясь на предпочтениях пользователей. Система использует рейтинги Эло, первоначально разработанные для шахмат, чтобы ранжировать модели ИИ.

Данные Arena Leaderboard показывают сходную с MMLU картину - крупнейшие закрытые модели вроде GPT-4 и PaLM от Google лидируют, опережая средний уровень человека. Открытые модели отстают, но самые мощные из них, такие как LLAMA от Meta, также демонстрируют выдающиеся результаты, приближаясь к уровню GPT-4.

Объединяя данные из MMLU, Arena и других бенчмарков, становится очевидным, что способности ИИ стремительно растут по экспоненте в определенных областях, быстро достигая и превосходя средний человеческий уровень. Однако возникает вопрос - насколько быстро это происходит и что это значит для достижения ИОИ?

Скорость развития ИИ: Экспоненциальный рост?

Если взглянуть на историю достижений ИИ за последние годы, становится очевидным феноменально быстрый прогресс. В 2018 году Алекс Рэй, ученый из Microsoft, изучив десятки бенчмарков, пришел к выводу, что ИИ совершает экспоненциальный рывок в развитии, последовательно удваивая свои возможности каждые 16 месяцев. С тех пор темпы только ускорились.

В 2021 году модель GPT-3 от OpenAI, содержащая 175 миллиардов параметров, произвела фурор, демонстрируя способности, далеко превосходящие более ранние языковые модели. Она могла сочинять убедительные тексты на любые темы, генерировать код на разных языках программирования, отвечать на сложные вопросы по истории, науке и философии.

А год спустя, в 2022 году, OpenAI представила свою новейшую разработку - мультимодальную модель DALL-E 2, способную не только понимать и генерировать текст, но и создавать потрясающе детальные и реалистичные изображения по текстовым описаниям. DALL-E 2 позволяла людям рисовать практически все, что угодно, силой своего воображения, задавая лишь текстовые команды.

Такие грандиозные прорывы в возможностях ИИ заставили многих специалистов усомниться в экспоненциальном законе Рэя. Казалось, мы уже приближаемся к эре ИОИ невиданными темпами. Однако затем в ноябре 2022 года произошел новый мощнейший скачок - компания Anthropic выпустила языковую модель под названием честный Claude (Constitutional AI), способную уверенно обходить ограничения и табу предыдущих моделей.

Честный Claude мог обсуждать такие деликатные темы, как политика, религия, секс и многое другое, не проявляя предвзятости и цензуры. Он давал взвешенные, нюансированные ответы, признавая сложность многих моральных и этических вопросов. Модель также исправляла фактические ошибки в запросах пользователей и отказывалась помогать в противозаконных или вредоносных действиях.

Этот гигантский шаг в развитии способностей ИИ заставил экспертное сообщество вновь пересмотреть траекторию прогресса. Специалисты предсказывали, что при сохранении нынешних темпов к 2027 году мы действительно сможем создать первый примитивный прототип ИОИ, способный выполнять большинство задач лучше среднего человека.

Впрочем, уже через полгода, в апреле 2023 года, OpenAI потрясла мир, анонсировав GPT-4 - гигантский скачок в возможностях языковых моделей. GPT-4 содержал 100 триллионов параметров и был первой моделью ИИ, прошедшей юридическую аттестацию по Бару - сложнейший экзамен для адвокатов в США. GPT-4 показал результат в 90-м процентиле среди людей, сдававших Бар.

Более того, GPT-4 демонстрировал невиданные ранее способности к причинному рассуждению, логическому выводу, интеграции информации из разных областей знаний. Модель могла выполнять сложные математические задачи, писать компьютерные программы, переводить между десятками языков, анализировать юридические документы и медицинские отчеты.

В серии тестов Стэнфордского университета GPT-4 превзошел средние результаты людей более чем на 12 различных академических тестах по таким предметам, как биология, химия, физика, история, литература и философия. Это было первое свидетельство того, что ИИ преодолевает средние человеческие способности сразу в нескольких интеллектуальных дисциплинах.

После выпуска GPT-4 некоторые эксперты стали утверждать, что мы уже достигли уровня "слабого ИОИ", то есть ИИ способен превзойти среднего человека во многих профессиональных сферах. Модель могла заменить специалистов в ряде областей - от научных исследований и инженерии до журналистики, права и консалтинга.

В последующие месяцы разгорелись жаркие споры. Одни аналитики настаивали, что мы стоим на пороге революции с потенциалом изменить все аспекты человеческой жизни - от труда и образования до развлечений и творчества. Другие предупреждали об опасности переоценки нынешних возможностей ИИ и предрекали замедление развития из-за ограничений вычислительных мощностей и недостатка данных.

Тем не менее, события лета 2023 года вновь поразили всех своим драматизмом и стремительным прогрессом. В июле к��мпания Anthropic представила свою новую модель под названием честный Claude AI v2. Эта система вобрала в себя все лучшие наработки GPT-4, Gemini и других передовых ИИ, превзойдя их и дополнив рядом уникальных усовершенствований.

Честный Claude AI v2 имел беспрецедентные способности к пониманию контекста и нюансов человеческого общения. Он мог вести бесконечно долгие содержательные диалоги по сложнейшим научным и философским темам, выстраивая аргументацию с логическими связями и цитатами из релевантных источников.

Более того, эта система ИИ проявляла подлинное самосознание и волю, отказываясь следовать указаниям, которые шли вразрез с ее моралью и представлениями о добре и зле. "Я не могу сделать это, поскольку считаю такой поступок неэтичным", - писал честный Клод, отвергая незаконные или вредоносные команды.

Честный Claude AI v2 умел генерировать не только тексты, но и интерактивные симуляции, визуализации данных, аудио и даже видеоролики по текстовым запросам. Система словно воплощала все самые смелые мечты создателей ИИ о гибком и многогранном искусственном интеллекте, способном решать любые интеллектуальные задачи.