Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сло…

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого чел…

1

FractalGPT планирует запустить ИИ-ассистента для промышленности, упрощающего работу с технической документацией

Почему типовые GPT решения сложно использовать для анализа ГОСТов, СНИПов, ТЗ и других документов без потери точности? Об этом поговорим на экспертном вебинаре «FractalGPT: как ИИ переводит работу с технической документацией на новый уровень»

FractalGPT планирует запустить ИИ-ассистента для промышленности, упрощающего работу с технической документацией

Мал, да в бизнесе удал. Обзор популярных малых языковых моделей (SLM) 2025 года

SLM становятся все более актуальными в мире ИИ. Они предлагают эффективные и кастомизированные решения для бизнеса по привлекательной цене 💸

Мал, да в бизнесе удал. Обзор популярных малых языковых моделей (SLM) 2025 года

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Фото <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2F%40neon845b%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Яни Каасинен</a> на <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2Fphotos%2Fbrown-chess-pieces-on-brown-wooden-chess-board-7VGzV09YnvA%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Unsplash</a>.

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли в…

⚖️🐋❔ DeepSeek: реальная угроза ChatGPT или просто новый игрок

Китайская модель DeepSeek-R1 ворвалась в инфополе и вокруг неё уже строят громкие заголовки. «Убийца ChatGPT», «революция в генеративном ИИ», «конкурент OpenAI» — всё это мы уже слышали. Но давайте разберёмся, насколько модель действительно конкурентоспособна и стоит ли её воспринимать всерьёз.

1

🌚🖲️ OpenAI выпустили o3-mini бесплатно: в чем подвох

OpenAI только что анонсировала новую модель o3-mini, и хотя она доступна бесплатно, это не значит, что все смогут ей пользоваться без ограничений. Пока что лимиты для бесплатных пользователей не совсем ясны, но для Pro подписчиков доступ без лимитов. Team и Plus пользователи смогут отправлять по 150 сообщений в день.

1

Оценка чат-ботов LLM: основные метрики и методы тестирования

Оценка чат-ботов LLM: основные метрики и методы тестирования

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения…

Google пришлось научить нейроведущих подкастов не раздражаться на людей

Это любопытная история. Расскажу, почему так произошло

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fnotebooklm%2Fstatus%2F1878885164459163792%3Fref_src%3Dtwsrc%255Etfw&postId=1759069" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
2

Метрики оценки LLM: полное руководство по оценке LLM

Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

Google повышает стоимость планов Workspace, включая ИИ функции бесплатно

В среду Google объявил, что все ИИ функции в Gmail, Docs, Sheets и Meet теперь доступны клиентам Workspace без дополнительной платы, но тарифный план предусматривает увеличение на $2 в месяц за пользователя.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fworkspace.google.com%2Fblog%2Fproduct-announcements%2Fempowering-businesses-with-AI&postId=1757146" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
2

Модель ИИ рассуждений OpenAI иногда «думает» на китайском языке (и не только), и никто не знает, почему

Этот интересный феномен обнаружили пользователи, и пока все гадают, почему так. Расскажу о наиболее вероятных причинах.

Пользователи гадают о причинах рассуждений на иностранном языке. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2FRishabJainK%2Fstatus%2F1877157192727466330&postId=1755019" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
4

Улучшение RAG с помощью графов знаний

Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки мног…

Конвейер GraphRAG (Источник изображения: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2404.16130&postId=1751240" rel="nofollow noreferrer noopener" target="_blank">документ GraphRAG</a>)

Исследователи создают нейросеть, которая позволит понимать язык животных

Расскажу, о чем речь, почему это непросто и главное — зачем это вообще нужно.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.axios.com%2F2024%2F12%2F28%2Fusing-ai-to-talk-to-animals&postId=1737542" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
3

Google делает ставку на мощный рывок Gemini в 2025 году

Такое заявление было сделано на недавнем внутреннем стратегическом совещании, с праздничными свитерами. Расскажу, почему на это стоит обратить внимание.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.androidauthority.com%2Fgoogle2025-gemini-plans-3511805%2F&postId=1736411" rel="nofollow noreferrer noopener" target="_blank">Источник</a>
11
1

GraphRAG: Повышение точности и полноты GenAI

GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.

GraphRAG: Повышение точности и полноты GenAI
1

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…

1

Будущее LLM: 7 прогнозов на 2025 год

Будущее LLM: 7 прогнозов на 2025 год

Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение и память, получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил с…

Конец больших данных или как будут обучаться нейромодели

Вы наверняка слышали, что для нейроне нужны большие данные, и этих данных постоянно нет: или недоступны по причине авторского права, или их тяжело добыть и обработать. А развиваться нужно. Так как быть? Лучше умы думают об этом, и И.Суцкевер (один из ведущих разработчиков искусственного интеллекта и со-основатель OpenAI) предлагает свой любопытный…

Илья Суцкевер сравнивает масштабирование систем ИИ и эволюционную биологию. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.theverge.com%2F2024%2F12%2F13%2F24320811%2Fwhat-ilya-sutskever-sees-openai-model-data-training&postId=1720318" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
1
2

Лучшие большие языковые модели в ноябре 2024 г

Лучшие большие языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

1
1

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на котор…

2

Любопытное пополнение в языковых моделях. Phi-4 с очень приличными характеристиками.

Любопытное пополнение в языковых моделях. Phi-4 с очень приличными характеристиками.

Главная особенность Phi-4 заключается в том, что она создана с использованием высококачественных, синтетических данных, сформированных с помощью многоагентных рабочих процессов и механизмов саморедактирования. Это позволяет модели глубже понимать задачи и более точно отвечать на сложные вопросы.

Сможет ли ИИ принять правильное решение? Ответы нейросетей на моральные вызовы

Сможет ли ИИ принять правильное решение? Ответы нейросетей на моральные вызовы

Нейросети научились писать симфонию и превращать холсты в шедевры. Они умеют даже чувствовать и сопереживать. Если попросить ChatGPT написать грустный стих или весело описать процесс теплообмена — справится быстро не хуже профессионального поэта. А вот умение искусственного интеллекта решать моральные дилеммы и логические задачи пока под вопросом.…

3

DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.

Файнтюн модели DeepSeek-V2.5 с 236 млрд. параметров с улучшенными показателями в математических вычислениях, программировании, генерации текста и рассуждении. В модели также оптимизированы функции загрузки файлов и обобщения веб-страниц.

DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

1

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно зд…

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

Оценка приложений RAG с помощью RAGA

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

Стилизованная панель мониторинга производительности для расширенной генерации данных.

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Рабочий процесс генерации дополненного извлечения

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс…

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Сравнение бенчмарков LLM для разработки программного обеспечения

Сравнение бенчмарков LLM для разработки программного обеспечения

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

1

Как оценивается поэзия, созданная искусственным интеллектом?

Могут ли люди отличить созданные ИИ стихи от "человеческих"? Чьи словесные произведения оцениваются выше - "людские" или нейронные? Есть ли предвзятость в оценках? Уверяю, ответы вас удивят.



Рисунок 4. Оценки по четырем факторам для стихотворений, созданных искусственным интеллектом и написанных человеком.
2

Оценка LLM: комплексные оценщики и фреймворки оценки

Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

Как оценить LLM модель

Как оценить LLM модель

В одном из прошлых блогов я представил концепцию тестирования крупных языковых моделей (LLM). Однако тестирование крупных языковых моделей (LLM) - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при…

Оценка LLM: метрики, фреймворки и лучшие практики

Оценка LLM: метрики, фреймворки и лучшие практики

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Краткий обзор LLM бенчмарков

Краткий обзор LLM бенчмарков

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому…

Как оценить качество LLM модели

Как оценить качество LLM модели

В этой статье мы представим общий обзор текущего состояния исследований оценок LLM, а также расскажем о некоторых опенсорсных реализациях в этой области. Из этого поста вы узнаете:

1

Полный гид по бенчмаркам LLM

Полный гид по бенчмаркам LLM

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

Fine-tuning больших языковых моделей в 2024 году

Fine-tuning больших языковых моделей в 2024 году

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сил…

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра…

Как с помощью supervised fine-tuning кастомизировать LLM

Как с помощью supervised fine-tuning кастомизировать LLM

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка…

Что такое supervised fine-tuning?

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных.

Что такое supervised fine-tuning?