Краткий обзор LLM бенчмарков

Краткий обзор LLM бенчмарков

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому…

Как оценить качество LLM модели

Как оценить качество LLM модели

В этой статье мы представим общий обзор текущего состояния исследований оценок LLM, а также расскажем о некоторых опенсорсных реализациях в этой области. Из этого поста вы узнаете:

11

Полный гид по бенчмаркам LLM

Полный гид по бенчмаркам LLM

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

Fine-tuning больших языковых моделей в 2024 году

Fine-tuning больших языковых моделей в 2024 году

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сил…

Самые популярные LLM бенчмарки

Самые популярные LLM бенчмарки

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

ChatGPT хорошо умеет обманывать

ChatGPT хорошо умеет обманывать

OpenAI разработала новый бенчмарк SimpleQA для оценки достоверности ответов больших языковых моделей (LLM). Результаты, мягко говоря, неутешительные. Даже самые продвинутые модели демонстрируют удручающе низкую точность.

11

⚡️ Mistral AI представила новые модели 3B и 8B.

⚡️ Mistral AI представила новые модели 3B и 8B.

INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.

INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.

Qwen 2.5 и DeepSeek 2.5: новые лидеры среди локальных моделей

Qwen 2.5 и DeepSeek 2.5: новые лидеры среди локальных моделей

Sony и AI Singapore объединились для создании новой LLM “Морской котик” (SEA-LION LLM)

“Пионеры” изобретений будущего Sony Research объявили о коллаборации с AISG для разработки модели с улучшенным пониманием языков.

Sony и AI Singapore объединились для создании новой LLM “Морской котик” (SEA-LION LLM)
11

Новая LLM от OpenAI: Прорыв или разочарование?

Новая LLM от OpenAI: Прорыв или разочарование?
11

Преимущества Tesla H100 в ML

Меня зовут Руслан, я инженер-программист, автор YouTube канала Ruslan Dev, специализируюсь на облачных вычислениях и машинном обучении. В этом кейсе я расскажу о своем опыте разработки больших языковых моделей (LLM). Так как один из самых передовых графических процессоров Н100 стоит как крыло самолета, я арендовал ее через облачный сервис immers.cl…

22

Как дообучать LLM с помощью Supervised Fine-Tuning

Как дообучать LLM с помощью Supervised Fine-Tuning

Вышла новая опенсорс модель Llama 3 Reflection 70 превосходит, Claude 3.5 Sonnet и GPT-4o.

Вышла новая опенсорс модель Llama 3 Reflection 70 превосходит, Claude 3.5 Sonnet и GPT-4o.

Почему Llama 3.1 - лучшая открытая нейросеть

В последние месяцы выходит большое количество нейросетей, но только небольшое количество из них заслуживает внимания. Сегодня поговорим о нейросети *Meta Lama 3.1 (признана в РФ экстремистской организацией и запрещена).

22

Command R+ обгоняет Qwen2: чем хороша LLM от Cohere?

Сегодня рассмотрим, на что способна LLM Command R+ и чем она может быть вам полезна (спойлер: Command R+ очень и очень перспективна).

Command R+ обгоняет Qwen2: чем хороша LLM от Cohere?

Llama 3.1 и Mistral Large 2

В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.

Новая LLM Suite меняет финансовую сферу

“Думайте о LLM Suite как об аналитике-исследователе, который может предложить информацию, решения и советы по определенной теме”.

Новая LLM Suite меняет финансовую сферу

Falcon Mamba: англоязычная языковая модель на архитектуре Mamba.

Falcon Mamba: англоязычная языковая модель на архитектуре Mamba.

Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio: Общайтесь с LLM помощью голоса.

⚡️ Mistral Large 2: Новая большая модель 123В от MistralAI

⚡️ Mistral Large 2: Новая большая модель 123В от MistralAI
11

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

Как я обучил модель, которая понимает русский лучше GPT 3.5 Turbo

Меня зовут Ruslan Dev и в этой статье я расскажу, как я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench. Также я рассмотрю новую конфигурацию для обучения на двух графических процессорах параллельно с помощью accelerate и deepspeed.

22

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

Как бесплатно попробовать Gemma 2 9B и 27B от Google: 5 способов

Как бесплатно попробовать Gemma 2 9B и 27B от Google: 5 способов

Прошло всего несколько недель с тех пор, как Google выпустила свою самую мощную легкую LLM, Gemma 2. Я экспериментировал с ней на разных платформах и решил поделиться пятью способами, с помощью которых вы можете попробовать Gemma 2 бесплатно.

3030

Как создать copilot с нуля?

Как создать copilot с нуля?

С Дмитрием Браженко (Microsoft) построили RAG с нуля и улучшили его с помощью механик и эвристик.

GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.

GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.

Креативность: битва людей и машин

Появление ChatGPT породило споры, в какой степени искусственный интеллект (ИИ) может конкурировать с человеком по креативности, в какой степени ИИ приближается к творчеству человеческого уровня? Проведено поистине масштабное и тщательное исследование, в котором сравнили креативность 100 тыс.(!!) человек и 9 языковых моделей.

Результаты креативности моделей и людей методом DAT. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.researchgate.net%2Fpublication%2F380820358_Divergent_Creativity_in_Humans_and_Large_Language_Models%2Flink%2F6650085f22a7f16b4f47a12a%2Fdownload%3F_tp%3DeyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6InB1YmxpY2F0aW9uIiwicGFnZSI6InB1YmxpY2F0aW9uIn19&postId=1210475" rel="nofollow noreferrer noopener" target="_blank">Источник<br /></a>
22

⚡️ Mistral-7B-v0.3 доступна на HuggingFace

⚡️ Mistral-7B-v0.3 доступна на HuggingFace

🖥 Реализация модели Llama 3 на чистом NumPy

🖥 Реализация модели Llama 3 на чистом NumPy

Lory — полностью дифференцируемая Mixture-of-Experts (MoE)

Lory — полностью дифференцируемая Mixture-of-Experts (MoE)

DocsGPT — open-source AI-помощник для работы с документами и не только

11

⚡️ LLaVA-NeXT: новая мощнейшая модель для расшифровки и понимания видео

LLaVA-NeXT - одна из самых мощных на сегодняшний день моделей для понимания видео, превосходящая все существующие VLM, с открытым исходным кодом.

⚡️ LLaVA-NeXT: новая мощнейшая модель для расшифровки и понимания видео

OpenAI готовят грандиозный анонс. Gpt-5 ?

OpenAI готовят грандиозный анонс. Gpt-5 ?
11

Это лучшие в настоящее время боты на базе нового GPT для различных задач!

Это лучшие в настоящее время боты на базе нового GPT для различных задач!
44

Microsoft только что новую архитектуру для больших языковых моделей

Microsoft только что новую архитектуру для больших языковых моделей

Artificial Analysis собрали топ 100 LLM в одном месте

Artificial Analysis собрали топ 100 LLM в одном месте

IBM выпустили самую совершенную модель для генерации кода

IBM выпустили самую совершенную модель для генерации кода
22

🧑‍💻 OpenAI объявила о крутейшей коллаборации со Stack Overflow. Chatgpt будет писать код на сайте

🧑‍💻 OpenAI объявила о крутейшей коллаборации со Stack Overflow. Chatgpt будет писать код на сайте
22

🌟 TrustLLM мощный инструмент для оценки ответов LLM

🌟 TrustLLM мощный инструмент для оценки ответов LLM
11

Quivr — это open-source локальная и приватная альтернатива OpenAI GPTs и ChatGPT

Позволяет извлекать информацию из локальных файлов (PDF, CSV, Excel, Word, аудио, видео...), используя Langchain, GPT 3.5/4 turbo, Private, Anthropic, VertexAI, Ollama, LLMs, Groq.

33

Сэм Альтман - отец Chatgpt в Стэнфорде поделился своими мыслями об искусственном интеллекте

Сэм Альтман - отец Chatgpt в Стэнфорде поделился своими мыслями об искусственном интеллекте
11