Обзор YC S23 стартапов по аналитике
Исследовал все стартапы по аналитике из Y Combinator в батче S23. Делюсь описанием их продуктов:
PeerDB
PeerDB - быстрый *ETL для **Postgres
*Extract transform load - процесс переноса и обработки данных из одного хранилища в другое.
**PostgreSQL - одна очень популярная СУБД
Какую проблему решают:
Существующие инструменты для переноса и обработки данных стремятся поддерживать большое количество *коннекторов в ущерб качеству. Это становится проблемой при масштабировании инфраструктуры. Большие компании тратят много ресурсов, чтобы создать свои инструменты, потому что существующие не подходят под требования производительности и надежности или им не хватает функционала.
*коннекторы - ПО, для того чтобы разные технологии могли взаимодействовать.
Продукт:
Создают быстрый, простой и эффективный способ отправлять данные из Postgres в другие системы.
Как работает:
- Разворачиваете приложение. Есть open-source версия, где просто копируете с гита, а есть облачные, где со всем помогут.
- Создаете подключения, т.е. указываете свои системы-источники данных.
- Создаете “зеркала” для переноса данных. Упрощенно, это скрипты, похожие на SQL, по логике которых, будет происходить обработка и отправка данных
Фичи:
- Получение данных в режиме реального времени. Гарантируют, что данные в конечной системе появятся не дольше чем за 30 секунд после их создания.
- Поддерживают нестандартные форматы данных (JSONB, GEO)
- Быстрая первичная загрузка. Т.е. Можно переносить уже существующие большие таблицы в короткий срок (в примерах говорят о 100млн строк за 4.5 минуты)
Доп преимущества:
- Быстрый. По заявленным замерам - в 7-10 раз быстрее конкурентов в разных задачах.
- Простой. Все реализовано в SQL интерфейсе.
Deasie
Deasie - контроль качества данных для больших языковых моделей.
Какую проблему решают:
Компании стали активно обращаться к большим объемам неструктурированных данных для использования с ИИ. Сейчас большинство компаний не может обеспечить требования безопасности, актуальности и согласованности данных для задач ИИ.
Продукт:
Создают платформу, которая проверяет качество и чувствительность неструктурированных данных для использования в языковых моделях.
*чувствительность в том плане, что это не тайная информация (персональные данные, коммерческая тайна и т.п.)
Как работает:
- Подключаются источники данных (почта, файловые хранилища)
- Чувствительная информация убирается или маскируется
- Изначальные документы делятся на небольшие фрагменты
- Каждый фрагмент размечается, согласно метаданным о его содержимом
- Фрагменты подаются в языковую модель
- Работа модели контролируется и улучшается за счет того, что ей подаются только доступные актуальные фрагменты
Фичи:
- Автоматическое создание метаданных, которые описывают фрагменты данных
- Поиск и скрытие чувствительной информации
- Контроль доступности данных, т.е. можно определять каким пользователям какие данные будут доступны.
Revamp
Revamp - сегментация пользователей в ecommerce с помощью ИИ
Какую проблему решают:
Маркетологи плохо понимают пользовательское поведение, потому что:
- данные разрознены и лежат в разных инструментах
- В большинстве компаний не хватает технической экспертизы для сбора данных
- Даже собранные данные тяжело анализировать
По итогу много денег уходит на нецелевые коммуникации.
Продукт:
Создают приложение, где собираются данные о пользователях и можно их анализировать.
Как работает:
- Собираются и сопоставляются данные из разных источников
- Автоматически создаются пользовательские сегменты
- Для каждого сегмента приводятся выводы и метрики
Фичи:
- Интеграция с Klaviyo и Shopify (обещают скоро новые интеграции)
- Автоматическая пользовательская сегментация + настраиваемые параметры к ней
- Возможность сравнения сегментов прямо в платформе
- Загрузка сегментов сразу в Klaviyo
Shopify - делают платформу для онлайн торговли
Klaviyo - делают платформу для автоматизации маркетинга
Subsets
Subsets - ИИ помощник для подписочного бизнеса.
Какую проблему решают:
Подписки теряют 20-40% пользователей ежегодно. Люди завалены ненужными подписками. У CRM команд нет возможности узнать, что нужно пользователям для максимизации пользы от подписки. Существующие ИИ решения для улучшения подписок созданы для инженеров, а не для бизнеса.
Продукт:
Создают приложение, которое анализирует пользовательский путь и причины удержания пользователей и на основании анализа создает стратегию взаимодействия с разными пользователями.
Фичи:
- Есть подключения как к *DWH, так и к системам-источникам данных
- Автоматическая генерация отчетов о причинах удержания пользователей
- Создание кампаний по улучшению удержания для разных групп пользователей
DWH - корпоративное хранилище данных
DSensei
DSensei - определим причину изменения KPI за минуты.
Какую проблему решают:
Существующие инструменты визуализации данных показывают изменение показателей, но не отвечают на вопрос, “почему” они изменились. Из-за этого у команд аналитики уходит много времени на ручной анализ, но он дорогой и не исчерпывающий.
Продукт:
Создают инструмент по анализу и визуализации данных, который автоматически анализирует все возможные комбинации признаков и определяет, какие привели к изменению метрики.
Как работает:
- Подключаете данные
- Задаете параметры анализа (какие атрибуты смотреть и за какой период)
- Приложение перебирает все комбинации атрибутов и анализирует по ним метрику, оставляя только значимые
- В интерфейсе показываются все выбранные сегменты + по ним можно проваливаться вглубь и смотреть детальную разбивку и влияние на метрику
Фичи:
- Умеет получать данные из файлов, Snowflake и BigQuery
- Полная настраиваемость параметров для анализа (выбор метрики, тип агрегации, выбор атрибутов, определение границ анализа)
- Скорость. Посмотрел код, сверхъестественной оптимизации не делают, но используют polars, что существенно быстрее стандартного pandas.
Я сам периодически пользуюсь инструментом. Полноценного аналитика не заменит, но первичный или разовый анализ сделает быстро, поэтому очень хорош как помощь от банальных задач командам аналитики.
Outset
Outset - пользовательские интервью с помощью ИИ
Какую проблему решают:
Бизнесу и исследователям приходится выбирать между быстрыми результатами (опросники) и глубокими (интервью). На проведение интервью тратится множество времени (само интервью + со всем договориться по времени).
Продукт:
Создают платформу для проведения и анализа интервью с пользователями.
Как работает:
- Загружаете руководство к диалогу и настраиваете параметры диалога
- Отправляете ссылку пользователям, которых нужно опросить
- Получаете выжимку выводов из исследований
Фичи:
- Поддержка мультимедиа. Можете задавать не только текстовые вопросы, но концепты дизайна в разном формате (видео, картинки)
- Поддержка многих языков. Конкретное число не указано, но под капотом используют GPT-4, у которого 26 языков
- Разметка диалога. Определяет темы диалога, классифицирует подтемы, умеет выбирать полезные фразы собеседника.
- Автоматический анализ интервью. Основные выводы из исследования, с подтверждением из диалогов можно скачать или посмотреть прямо на сайте.
Latentspace
Latentspace - ИИ аналитик данных
Какую проблему решают:
Все хотят принимать решения на основе данных, но:
- У аналитиков данных забит бэклог
- Самостоятельно разбираться в SQL - долго и дорого
- Существующим AI помощникам нельзя доверять, потому что результаты сильно зависят от данных, на которых они тренировались
Продукт:
Создают веб-приложение с диалоговым ИИ ассистентом.
Как работает:
- Подключаете данные (файл или данные для подключения к БД)
- Задаете вопросы на естественном языке, как если бы вы общались с коллегой-аналитиком
- Несколько моделей обрабатывают запросы и валидируют ответы друг друга.
- Делитесь результатами, копируя нужные части диалога в один клик
Фичи:
- Точность. Используют несколько моделей, которые проверяют ответы друг друга перед ответом пользователю.
- Безопасность. Не сохраняют данные в процессе работы.
- Прозрачность. Можно увидеть все проделанные шаги от получения данных до генерации выводов.
- Поддержка разных форматов данных, в т.ч. неструктурированных
Egress
Egress - ИИ для работы с данными компании
Какую проблему решают:
Сильная команда по работе с данными это нечестное преимущество успешных компаний. Часто дата-команды тонут в запросах или этой команды в компании нет вовсе. Из-за этого у бизнес-пользователей нет доступа к качественной количественной информации для принятия решений.
Продукт:
Делают инструмент, который поможет нетехническим пользователям обрабатывать данные и принимать с их помощью решения.
Как работает:
- Определяете источники данных
- Описываете таблицу, которую хотите увидеть
- Получете SQL запрос, генерирующий таблицу в нужном виде
Странно, но факт: вроде о запуске написали, но конкретики по взаимодействию не предлагают, а на сайте кроме прикольной анимации только почта
Vizly
Vizly - ИИ аналитик данных для компаний
Какую проблему решают:
BI инструменты сложные и обучаться им долго. Хотя компании пытаются становиться дата-центричными, распространение BI инструментов около 15%, из-за этого команды по анализу данных тонут в вопросах.
Продукт:
Создают BI инструмент, который будет доступен нетехническим пользователям.
Как работает:
- Подключаете источник данных
- Задаете вопросы о данных
- В ответ получаете сгенерированный SQL запрос и результат запроса в виде таблиц и графиков.
Фичи:
- Запускается локально, поэтому безопасность и сохранность данных зависит только от надежности корпоративной сети.
- Оптимизированное. Часто для запуска приложений локально требуется много ресурсов, но фаундеры уверяют, что хватит мощности одного макбука.
- Гибкое, у приложения множество настроек, которые регулируют параметры чата и визуализаций.
Orbio Earth
Orbio Earth - отслеживание выбросов метана с помощью спутников
Какую проблему решают:
Существующий процесс сбора климатических данных - слабый (во многом ручной, с устаревшим оборудованием и не регулярный). Плохой процесс сбора данных = некачественные данные = слабая аналитика устойчивости и рисков связанных с энергетическими активами.
Продукт:
Создают инструмент по сбору, обработке и анализу данных рисков, связанных с выбросами метана.
Как работает:
- Физический движок создает модель выбросов метана с использованием данных с 8 спутников.
- Эти данные сопоставляются с другими климатическими данными, для создания совокупного бенчмарка.
- Итоговые данные доступны в платформе аналитики и их можно использовать для отчетности и аналитики.
Итоги:
1) 3/10 делают ИИ для дата-аналитики в общем виде. т.е. из разряда "дайте данные и задавайте о них любые вопросы". (vizly, latentspace, egress)
4/10 делают ИИ аналитика для конкретных целей:
- dsensei - анализ драйверов метрики
- subsets - анализ подписок
- revamp - сегментация пользователей для маркетинга
- outset - пользовательские интервью
3/10 делают промежуточную надстройку для существующих процессов
- Orbio earth - сбор атмосферных данных, который потом используется в риск-моделировании
- Deasie - платформа данных для языковых моделей и продуктов на их основе
- PeerDB - инструмент для переноса и обработки данных
Спасибо, что дочитали до конца.
О своем пути аналитика данных в стартапы рассказываю в канале https://t.me/ppbaboshkin, подписывайтесь, если интересно)
7/10 это ИИ стартапы, теперь сложно отличить где реальная технология и хорошая команда, а где супер грамотная пустышка, интересно сколько еще будет продолжаться этот хайп с искусственным интеллектом (как несколько лет назад с web3)
а до этого с криптой
Комментарий недоступен
Комментарий недоступен