Три истории о том, как облачные технологии помогли настроить работу с ML и Big Data и улучшили бизнес-показатели
Данные во многом влияют на принятие стратегических решений в бизнесе. Быстро обработать большие объемы информации помогают облачные технологии. Как именно — поделились клиенты «Рег.ру».
Чтобы разобраться в теме, обратимся к историям РБК, Sellematics и Ctrl2Go. В партнерстве с Рег.ру эти компании оптимизировали работу с Big Data и ускорили ML-процессы.
Содержание:
РБК: IT-решение для ML-задач медиахолдинга
РБК — крупный медиахолдинг. Мы ежедневно выпускаем сотни материалов и новостей на различные темы. В публикациях содержатся теги: они помогают пользователям с навигацией, а редакторам — с настройкой рекомендательных алгоритмов. Теги охватывают сферы, например «Общество», «Спорт» или «Стиль», а также узкие термины — «вакцинация», «сыр» и другие.
Наши редакторы проставляли теги вручную: подбирали несколько подходящих из тысяч существующих, а если не находили, прописывали свои. Количество тегов непрерывно росло, появлялись дубли, и редакторам стало сложно подбирать релевантные фразы, это занимало много времени.
Чтобы решить проблему, мы обратились к искусственному интеллекту. Для обучения модели использовали облачные серверы с GPU от Рег.ру. Обучение проходило в несколько этапов:
- Первичное обучение ИИ-модели. Мы провели его на on-premise-инфраструктуре, в основе лежала open-source архитектура Т5. Обучение на локальном сервере заняло восемь дней. Чтобы сократить время и повысить производительность, процесс дообучения решили провести в облаке.
- Дообучение с помощью облачных технологий. Специалисты Рег.ру подготовили тестовый стенд с GPU NVIDIA RTX A5000, предназначенный для работы с ИИ и сложной аналитикой. Для тестирования среди разных ML-моделей мы выбрали Fred T5: она уже умеет хорошо понимать и генерировать текст. После тестирования перешли на оригинальную архитектуру T5, благодаря тому что появилась большая мультиязычная модель от Google с правильным токенайзером.
- Проверка качества модели. Тестировали на существующих материалах «РБК Тренды», «РБК Отрасли» и «РБК Life». Загрузили в нейросеть около 25 тысяч полнотекстовых статей и оценили результаты на тестовом датасете.
Время обучения модели в облаке по сравнению с локальным сократилось с 8 дней до 14–15 часов, а точность составила 99%. Облачный сервер с GPU помог решить проблему и одновременно снизить затраты на обучение. Развертывание собственных стендов для тестирования гипотез и первых этапов разработки стоило бы намного дороже.
Одну статью обученная нейросеть может протегировать за 0,0362 секунды! При этом она статистически сделает это более полно — «вспомнит» о существовании тегов, о которых выпускающий может забыть. И главное — теперь редакторы занимаются более творческой работой, а рекомендательные алгоритмы РБК работают точнее, предлагая читателям релевантные материалы.
Инфраструктура для этой ML-модели — первый проект, который протестировали на облачном решении Рег.ру с GPU.
Ctrl2Go: единая облачная инфраструктура и снижение затрат в 2 раза
Ctrl2Go специализируется на консалтинге, разработке и внедрении цифровых продуктов в промышленности. Мы создаем сервисы на основе обработки данных и машинного зрения, поэтому нам нужны большие вычислительные мощности.
Раньше для разных проектов и бизнес-направлений мы использовали ресурсы четырех коммерческих ЦОД. Но такой подход усложнял администрирование инфраструктуры, и в конце 2023 года мы приняли решение централизовать все используемые вычислительные мощности на базе одной площадки. Кроме того, мы понимали, что за счет единого управления сможем снизить затраты.
Нам было важно выбрать партнера, который сможет поддерживать высокий аптайм, предоставлять современные технологии хранения данных и кастомные гибкие решения. В результате мы обратились в Рег.ру.
Нам предоставили отказоустойчивое частное облако на базе VMware с собственным парком серверов. После миграции мы получили несколько преимуществ:
- Централизованное управление ресурсами. Мы консолидировали инфраструктуру у одного провайдера и создали единые политики доступа и безопасности. Это упрощает администрирование, помогает защитить чувствительную информацию и минимизировать риски утечек.
- Снижение затрат на инфраструктуру более чем на 30%. Это произошло благодаря снижению совокупной стоимости поддержки и обслуживания. Высвобожденные средства мы реинвестировали в развитие продуктов.
- Запустили объектное хранилище в облаке и настроили резервное копирование. Система хранилищ обеспечила надежность и доступность критически важных данных.
- Гибкость при распределении ресурсов. Рег.ру дал нам возможность зафиксировать цену услуг и масштабировать мощности при необходимости как вверх, так и вниз. Обычно провайдеры предлагают только увеличивать ресурсы, а мы можем эффективно распределять их в зависимости от задач и не переплачивать.
Одновременно с этим упростились бизнес-процессы. Сотрудники могут быстрее администрировать ресурсы для работы с Big Data. Если раньше необходимо было заходить в разные личные кабинеты, то теперь мониторинг, масштабирование и управление услугами собраны в одном. Стало удобнее общаться с техподдержкой, упростилась бухгалтерия.
Для проекта Ctrl2Go Рег.ру впервые запустил объектное хранилище S3 в частном облаке. С его помощью можно хранить данные любого объема — от мегабайтов до петабайтов — и любого типа — от текстов до мультимедиа — и управлять ими. А теперь возможность работать с Big Data получили все клиенты компании.
Sellematics: облачная аналитика для обработки данных о 350 млн товаров в день
Sellematics — сервис аналитики и исследований для рынка электронной коммерции. Мы помогаем брендам отслеживать представленность на онлайн-площадках, а также увеличивать продажи и управлять рекламой с помощью собственного инструмента Sellmonitor. Сейчас мы обрабатываем ежедневно сведения о 350 млн товаров, но планируем масштабироваться и увеличить количество до 500 млн.
Ежедневно мы обрабатываем самые разные данные. Например, изменение стока — количество доступного к продаже товара на конкретном складе. Или изменения цен по дням для вычисления объема продаж каждого товара в штуках и деньгах по каждому дню.
Мы используем API маркетплейсов и веб-скрейпинг для сбора данных. Анализируем тренды, выявляем сезонность, строим прогнозы будущих продаж, спроса и поведения рынка. Пользователи получают персонализированные рекомендации по управлению ассортиментом, ценообразованию и маркетинговым стратегиям.
Наша команда работает с Рег.ру с момента основания в 2019 году. Тогда мы арендовали 5 физических серверов, а теперь — IT-инфраструктуру, состоящую более чем из 20 высокопроизводительных серверов с высокоскоростными NVMe-накопителями, облачных IaaS-сервисов, а также VPS и резервного копирования.
В процессе роста компании наши запросы увеличивались, и специалисты Рег.ру специально под нас организовали серверное пространство, учитывая сразу несколько аспектов:
- Стабильное и быстрое соединение. Гарантия высокой производительности и скорости вычислений.
- Надежное хранение. Гарантированная защита данных объемом несколько десятков терабайт.
- Масштабирование и оптимизация. Возможность увеличивать ресурсы, когда нам потребуется обрабатывать еще больше данных.
- Постоянная техническая поддержка. Чтобы решать возникающие вопросы и помогать настраивать серверы.
Физические серверы в стойках поделены на конкретные группы. В рамках одной группы все серверы имеют одни и те же характеристики, тот же набор дисков, процессоров и так далее. Такой подход помогает нам унифицировать IT-инфраструктуру, упростить настройку и замену серверов.
В серверах используются диски Enterprise-класса. Они обеспечивают высокую скорость операций и сокращают время отклика. Стабильный канал связи 800 Мбит/с помогает оперативно получать данные и обрабатывать их без задержек. Всё это позволяет решать задачи клиентов быстрее: они получают свежие данные. Аптайм составляет 99,98%, а надежные системы хранения и резервирования обеспечивают сохранность критически важных данных.
Мы увеличиваем обрабатываемые объемы данных, поэтому гибкость, возможности масштабирования и постоянная техническая поддержка особенно важны.
Облачные серверы подходят для хостинга и разработки, а развертывание и запуск с образом из каталога приложений происходит в среднем за 1–2 минуты, что позволяет быстро масштабировать ресурсы при необходимости. Для высоконагруженных проектов доступна также линейка тарифов с выделенным CPU.
Читайте еще:
- Как защитить ИТ-проект в облаке: 4 частые проблемы и советы, чтобы снизить риски
- Увеличить точность принятия решений для клиентов на 20% с помощью облака: кейс «Фабрики Данных»
- Какие бизнес-сайты могли бы запустить русские писатели и композиторы, если бы жили в XXI веке
- От перфолент до облачных хранилищ: как развивалась история хранения данных