Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому…
В этой статье мы представим общий обзор текущего состояния исследований оценок LLM, а также расскажем о некоторых опенсорсных реализациях в этой области. Из этого поста вы узнаете:
В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сил…
Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.
OpenAI разработала новый бенчмарк SimpleQA для оценки достоверности ответов больших языковых моделей (LLM). Результаты, мягко говоря, неутешительные. Даже самые продвинутые модели демонстрируют удручающе низкую точность.
“Пионеры” изобретений будущего Sony Research объявили о коллаборации с AISG для разработки модели с улучшенным пониманием языков.
Меня зовут Руслан, я инженер-программист, автор YouTube канала Ruslan Dev, специализируюсь на облачных вычислениях и машинном обучении. В этом кейсе я расскажу о своем опыте разработки больших языковых моделей (LLM). Так как один из самых передовых графических процессоров Н100 стоит как крыло самолета, я арендовал ее через облачный сервис immers.cl…
В последние месяцы выходит большое количество нейросетей, но только небольшое количество из них заслуживает внимания. Сегодня поговорим о нейросети *Meta Lama 3.1 (признана в РФ экстремистской организацией и запрещена).
Сегодня рассмотрим, на что способна LLM Command R+ и чем она может быть вам полезна (спойлер: Command R+ очень и очень перспективна).
В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.
“Думайте о LLM Suite как об аналитике-исследователе, который может предложить информацию, решения и советы по определенной теме”.
Меня зовут Ruslan Dev и в этой статье я расскажу, как я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench. Также я рассмотрю новую конфигурацию для обучения на двух графических процессорах параллельно с помощью accelerate и deepspeed.
Прошло всего несколько недель с тех пор, как Google выпустила свою самую мощную легкую LLM, Gemma 2. Я экспериментировал с ней на разных платформах и решил поделиться пятью способами, с помощью которых вы можете попробовать Gemma 2 бесплатно.
Появление ChatGPT породило споры, в какой степени искусственный интеллект (ИИ) может конкурировать с человеком по креативности, в какой степени ИИ приближается к творчеству человеческого уровня? Проведено поистине масштабное и тщательное исследование, в котором сравнили креативность 100 тыс.(!!) человек и 9 языковых моделей.
LLaVA-NeXT - одна из самых мощных на сегодняшний день моделей для понимания видео, превосходящая все существующие VLM, с открытым исходным кодом.
Позволяет извлекать информацию из локальных файлов (PDF, CSV, Excel, Word, аудио, видео...), используя Langchain, GPT 3.5/4 turbo, Private, Anthropic, VertexAI, Ollama, LLMs, Groq.