Fine-tuning больших языковых моделей в 2024 году

Fine-tuning больших языковых моделей в 2024 году

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сил…

Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

В предыдущей статье мы показали, как можно ускорить процесс разметки предварительным аннотированием данных при помощи GPT-4. Эта методика позволяет нам загружать готовый к проверке предварительно размеченный датасет, а не выполнять монотонный процесс, начиная с нуля. В этой статье мы продолжим развивать эту тему, оказав, как можно объединить GPT-4…

Заблуждения о семантической сегментации

Заблуждения о семантической сегментации

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Разметка данных: неочевидные затраты на голосовые технологии

В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью…

Разметка данных: неочевидные затраты на голосовые технологии

Почему важна разметка данных: в основе ChatGPT лежит труд людей

Почему важна разметка данных: в основе ChatGPT лежит труд людей

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемо…

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Разметка данных в 2023 году: текущие тренды и требования будущего

Разметка данных в 2023 году: текущие тренды и требования будущего

12 лучших инструментов аннотирования изображений на 2023 год

12 лучших инструментов аннотирования изображений на 2023 год

9 лучших инструментов аннотирования изображений для Computer Vision

9 лучших инструментов аннотирования изображений для Computer Vision

Руководство по аутсорсингу разметки данных для машинного обучения

Руководство по аутсорсингу разметки данных для машинного обучения

Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

Разметка данных при помощи GPT-4

Разметка данных при помощи GPT-4