Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства

История о двух айтишниках и Data решениях

Данные — это новая нефть (или сырье?)
Клайв Хамби

Всем привет. Меня зовут Константин, и я основатель компании satori. Это моя первая статья на vc. ru и сразу лонгрид) . Здесь часто можно прочитать, что в России некому и нечем заменить решения иностранных компаний, которые уходят из страны. Расскажу противоположную историю. Надеюсь, что она поможет кому-то узнать немного больше о Data Management решениях.

Я с моим давним другом и партнером Азатом Якуповым встретились на конференции в Иннополисе в 2018 году и обсуждали изменения, которые видим на рынке управления данных в России. После чего реализовали несколько проектов по этой теме и поняли, что многие компании РФ (средние и крупные) нуждаются в комплексных системах управления данными и повышения доверия к большим данным как таковым. Таких решений в мире не так много, а после начала СВО присутствие таких решений в России так и вовсе можно пересчитать по пальцам одной руки.

Было решено делать “космолет” по повышению доверия к большим данным и комплексному их управлению.

Но для этого нужна большая компетентная команда, а такая команда стоит больших денег. Вот мы и обратили свой взор в сторону государственной поддержки ИТ-компаний. Их сейчас поддерживают) Найти крутых специалистов сложно, но получить грант со стороны государства ничуть не легче. Два месяца кропотливой работы по оформлению всех бумаг на подачу, 3-4 месяца ожидания, выездная проверка и мы получили грант в 20 млн. рублей. Вуаля:)

В последнее время произошел взрывной рост объема информации в мире. Организации во всех отраслях накопили огромный пласт источников данных, из которых можно получить ценную информацию. Возникает потребность в систематизации и практическом применении данных.

Однако корпорации могут столкнуться с частью проблем, в частности:

Разрозненность данных. Наличие большого количества разнородных источников данных (MS SQL Server, XLS-файлы, 1C, Битрикс и др.) и форматов данных;
Невозможность оперативного доступа к нужным данным. Для получения информации о состоянии дел в организации необходима нетривиальная работа по сбору и упаковке данных.

Проанализировав рынок программных решений, выявили наиболее известный продукт, покрывающий описанные проблемы.

Informatica — американская компания (что с недавнего времени стало болезненным), которая обладает комплексом различных инструментов со своими функциями:

Интеграция данных:
- обеспечение доступа к различным базам данных,
- извлечение данных из файлов,
- чтение и запись сложных иерархических документов,
- обработка данных в режиме реального времени
- мониторинг и предупреждение для всех процессов;
Каталог данных:
- обнаружение и каталогизация данных,
- автоматизация обработки данных,
- отслеживание движения данных,
- быстрое обнаружение связанных таблиц, представлений, доменов и отчетов;
Качество данных:
- управление качеством мультиоблачных и локальных данных,
- профилирование и итеративный анализ данных,
- создание и тестирование логических бизнес-правил,
- непрерывный мониторинг данных.

Подробнее о продуктах Informatica можно почитать на их официальном сайте.

А зачем это на практике?

Мы сможем посчитать в 1 клик сколько нужно денег Татарстану, чтобы отремонтировать все дома, где капитальный ремонт проводился более 10 лет назад. Сейчас это происходит совсем иначе и совсем в другие сроки.

Теперь давайте перейду к сути.

Команда satori в сотрудничестве с научной Лабораторией Данных при Казанском Федеральном Университете ведет разработку продукта Deductive Lake House в рамках программы “Развитие” Фонда содействия инновациям.

Deductive Lake House – комплексное решение, автоматизирующее полный цикл работы с данными: сбор и обработка, хранение, использование в рамках концепции KaaS — knowledge as a service

Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на внедрение алгоритмов машинного обучения и AI, которые приведут к современному управлению большими данными и достижению бизнес-ценности (ROI) .

Что это за модули:

UI-интерфейс динамического управления конвейером данных.
- Пользователи смогут строить data lineage, используя различные инструменты, в частности интеллектуальный mapping данных из различный источников, тем самым управлять потоками информации динамически из одного “окна”.
- Изменение любого из объектов — характеризует динамическое перестроение всех взаимосвязей и потоков информации в организации.
- В дальнейшем планируется встроить интеллектуальный поиск информации.

2. Каталог данных — единый источник корпоративных данных.

- Представляет собой инструмент для сбора и обработки метаданных из различных источников.

- Будет иметь общую конфигурацию для функционирования потоков данных, а также конфигурацию для стандартизации/нормализации/обогащения/гармонизации данных.

- Будет реализован функционал получения данных и доступа к ним, проверки качества данных, а также мониторинг работы служб обработки данных (регистрация / проверка / нотификация) .

3. Оптимизатор моделей данных:

- С помощью UI пользователи смогут автоматически создавать, выбирать модели и менять структуры на основании исследования модели интегрируемого источника: DataVault, Snow flake, Hybrid model, Anchor model.

- Также будет реализован функционал автоматического создания и регистрации потока данных из указанного источника.

- В оптимизатор модели будет встроена автоматическая реакция (+ информирование) на изменение структуры / модели текущего источника данных.

4. Анализатор зависимости данных:

- Построение динамического пути данных от начального пользователя до конечного потребителя информации.

- Автоматическая адаптация системы под построение общих паттернов модели для оптимизации работы построения кубов информации.

- Автоматическое определения последовательности восстановления кубов информации в случае аварийной ситуации

5. Предикатор данных и генератор гипотез:

- Динамическая адаптация модели для создания и оптимизации структуры данных.

- Построение модели из неструктурированных данных путем определения таксономий и онтологий.

- Сбор статистики и гистограмм данных для оптимизаций скорости сбора информации путем динамического переопределения механизмов обработки данных.

- Создание Data Mining Crawlers для автоматического поиска сильно/слабо взаимосвязанных данных для предоставления этой информации Аналитикам Данных

По смыслу дедуктивная база знаний это триумвират, который показан на рисунке. Каждый модуль может в отдельности повысить доверие к данным. Комплексное внедрение продукта поднимет процессы Data Governance в компании на качественно новый уровень, мы в satori в это верим.

Важно отметить, что в разработке мы используем только open-source решения для уменьшения стоимости поддержки данного продукта. Если статья наберет должный отклик мы сможем рассказать подробнее про используемые технологии и их применимость в проекте, а также детальнее раскрыть конкретные модули.

Для реализации MVP собираем кейсы разных компаний для того, чтобы сделать максимально юзабельный и полезный продукт, который подходит под наш рынок.

Буду рад ответить на вопросы в комментариях или в WhatsApp

148 комментариев

Ignat

22.09.2022

Двацатку до повестки или после получили?

Ответить

John Doe

23.09.2022

Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы наПо моему я первый внедрял информатику в РФ почти 20 лет назад и даже был их первым дистрибом в РФ. Содержание статьи — или чистая маниловщина или нарисованные красивые картинки, чтобы дали 20 лямов. Тупо посчитать трудозатраты на все, что перечислил автор, — это тысячи человеколет и отнюдь не джунов. Не цветочные магазинчики клепать под копирку. И это если не брать того, что если в команде нет людей с опытом оптимизации трансформаций на объемах 50-80-100Гб структурированных данных за 4-6 часов, то это тупо песочница для мелочевки. А вполне нормальные мелочевые ETL'и есть опен-сорсные и абсолютно бесплатные. Бери не хочу. Форкнуть стоит копейки, а не 20 лямов.

PS Не то, чтобы меня хоть сколько-нибудь волновала судьба Информатики в РФ, но нап%%дели с три короба.

Константин Могилевкин

Автор

Я бы так не улыбался на фото)

Михаил Коновалов

двадцатку они получат если ключевые KPI не выполнят.

Неопознанный Енот

Встретимся через n лет после проверок. Не так сложно взять денег у государства, куда сложнее не присесть после на проблемы.
(Много видел, много слышал, в одной из контор, в которой работал, гендир еще два года после закрытия компании ночами после основной работы пилил отчеты для проверяющих органов)

AeternaMens

Зачем так долго ждать? Сейчас в военкомат позовут, на этом история и закончится.

Михаил Кузнецов

да, брать у государства это как подписать сделку с дьяволом ))

Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства

А теперь давайте расскажу, на что мы получили деньги от государства.

И тут встает вопрос: а почему бы не сделать что-то похожее или лучше на Российском рынке?