Говорят в России нечем замещать уходящие иностранные решения. А мы сделали это и получили 20 млн. от государства
История о двух айтишниках и Data решениях
Данные — это новая нефть (или сырье?)
Всем привет. Меня зовут Константин, и я основатель компании satori. Это моя первая статья на vc. ru и сразу лонгрид) . Здесь часто можно прочитать, что в России некому и нечем заменить решения иностранных компаний, которые уходят из страны. Расскажу противоположную историю. Надеюсь, что она поможет кому-то узнать немного больше о Data Management решениях.
Я с моим давним другом и партнером Азатом Якуповым встретились на конференции в Иннополисе в 2018 году и обсуждали изменения, которые видим на рынке управления данных в России. После чего реализовали несколько проектов по этой теме и поняли, что многие компании РФ (средние и крупные) нуждаются в комплексных системах управления данными и повышения доверия к большим данным как таковым. Таких решений в мире не так много, а после начала СВО присутствие таких решений в России так и вовсе можно пересчитать по пальцам одной руки.
Было решено делать “космолет” по повышению доверия к большим данным и комплексному их управлению.
Но для этого нужна большая компетентная команда, а такая команда стоит больших денег. Вот мы и обратили свой взор в сторону государственной поддержки ИТ-компаний. Их сейчас поддерживают) Найти крутых специалистов сложно, но получить грант со стороны государства ничуть не легче. Два месяца кропотливой работы по оформлению всех бумаг на подачу, 3-4 месяца ожидания, выездная проверка и мы получили грант в 20 млн. рублей. Вуаля:)
А теперь давайте расскажу, на что мы получили деньги от государства.
В последнее время произошел взрывной рост объема информации в мире. Организации во всех отраслях накопили огромный пласт источников данных, из которых можно получить ценную информацию. Возникает потребность в систематизации и практическом применении данных.
Однако корпорации могут столкнуться с частью проблем, в частности:
- Разрозненность данных. Наличие большого количества разнородных источников данных (MS SQL Server, XLS-файлы, 1C, Битрикс и др.) и форматов данных;
- Невозможность оперативного доступа к нужным данным. Для получения информации о состоянии дел в организации необходима нетривиальная работа по сбору и упаковке данных.
Проанализировав рынок программных решений, выявили наиболее известный продукт, покрывающий описанные проблемы.
Informatica — американская компания (что с недавнего времени стало болезненным), которая обладает комплексом различных инструментов со своими функциями:
- Интеграция данных:
- обеспечение доступа к различным базам данных,
- извлечение данных из файлов,
- чтение и запись сложных иерархических документов,
- обработка данных в режиме реального времени
- мониторинг и предупреждение для всех процессов;
- Каталог данных:
- обнаружение и каталогизация данных,
- автоматизация обработки данных,
- отслеживание движения данных,
- быстрое обнаружение связанных таблиц, представлений, доменов и отчетов;
- Качество данных:
- управление качеством мультиоблачных и локальных данных,
- профилирование и итеративный анализ данных,
- создание и тестирование логических бизнес-правил,
- непрерывный мониторинг данных.
Подробнее о продуктах Informatica можно почитать на их официальном сайте.
И тут встает вопрос: а почему бы не сделать что-то похожее или лучше на Российском рынке?
А зачем это на практике?
Мы сможем посчитать в 1 клик сколько нужно денег Татарстану, чтобы отремонтировать все дома, где капитальный ремонт проводился более 10 лет назад. Сейчас это происходит совсем иначе и совсем в другие сроки.
Теперь давайте перейду к сути.
Команда satori в сотрудничестве с научной Лабораторией Данных при Казанском Федеральном Университете ведет разработку продукта Deductive Lake House в рамках программы “Развитие” Фонда содействия инновациям.
Deductive Lake House – комплексное решение, автоматизирующее полный цикл работы с данными: сбор и обработка, хранение, использование в рамках концепции KaaS — knowledge as a service
Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы на внедрение алгоритмов машинного обучения и AI, которые приведут к современному управлению большими данными и достижению бизнес-ценности (ROI) .
Что это за модули:
- UI-интерфейс динамического управления конвейером данных.
- Пользователи смогут строить data lineage, используя различные инструменты, в частности интеллектуальный mapping данных из различный источников, тем самым управлять потоками информации динамически из одного “окна”.
- Изменение любого из объектов — характеризует динамическое перестроение всех взаимосвязей и потоков информации в организации.
- В дальнейшем планируется встроить интеллектуальный поиск информации.
2. Каталог данных — единый источник корпоративных данных.
- Представляет собой инструмент для сбора и обработки метаданных из различных источников.
- Будет иметь общую конфигурацию для функционирования потоков данных, а также конфигурацию для стандартизации/нормализации/обогащения/гармонизации данных.
- Будет реализован функционал получения данных и доступа к ним, проверки качества данных, а также мониторинг работы служб обработки данных (регистрация / проверка / нотификация) .
3. Оптимизатор моделей данных:
- С помощью UI пользователи смогут автоматически создавать, выбирать модели и менять структуры на основании исследования модели интегрируемого источника: DataVault, Snow flake, Hybrid model, Anchor model.
- Также будет реализован функционал автоматического создания и регистрации потока данных из указанного источника.
- В оптимизатор модели будет встроена автоматическая реакция (+ информирование) на изменение структуры / модели текущего источника данных.
4. Анализатор зависимости данных:
- Построение динамического пути данных от начального пользователя до конечного потребителя информации.
- Автоматическая адаптация системы под построение общих паттернов модели для оптимизации работы построения кубов информации.
- Автоматическое определения последовательности восстановления кубов информации в случае аварийной ситуации
5. Предикатор данных и генератор гипотез:
- Динамическая адаптация модели для создания и оптимизации структуры данных.
- Построение модели из неструктурированных данных путем определения таксономий и онтологий.
- Сбор статистики и гистограмм данных для оптимизаций скорости сбора информации путем динамического переопределения механизмов обработки данных.
- Создание Data Mining Crawlers для автоматического поиска сильно/слабо взаимосвязанных данных для предоставления этой информации Аналитикам Данных
По смыслу дедуктивная база знаний это триумвират, который показан на рисунке. Каждый модуль может в отдельности повысить доверие к данным. Комплексное внедрение продукта поднимет процессы Data Governance в компании на качественно новый уровень, мы в satori в это верим.
Важно отметить, что в разработке мы используем только open-source решения для уменьшения стоимости поддержки данного продукта. Если статья наберет должный отклик мы сможем рассказать подробнее про используемые технологии и их применимость в проекте, а также детальнее раскрыть конкретные модули.
Для реализации MVP собираем кейсы разных компаний для того, чтобы сделать максимально юзабельный и полезный продукт, который подходит под наш рынок.
Буду рад ответить на вопросы в комментариях или в WhatsApp
Двацатку до повестки или после получили?
Наше решение будет состоять из 5 модулей. При реализации MVP хотим охватить часть идей функциональности Informatica, а в дальнейшем есть планы наПо моему я первый внедрял информатику в РФ почти 20 лет назад и даже был их первым дистрибом в РФ. Содержание статьи — или чистая маниловщина или нарисованные красивые картинки, чтобы дали 20 лямов. Тупо посчитать трудозатраты на все, что перечислил автор, — это тысячи человеколет и отнюдь не джунов. Не цветочные магазинчики клепать под копирку. И это если не брать того, что если в команде нет людей с опытом оптимизации трансформаций на объемах 50-80-100Гб структурированных данных за 4-6 часов, то это тупо песочница для мелочевки. А вполне нормальные мелочевые ETL'и есть опен-сорсные и абсолютно бесплатные. Бери не хочу. Форкнуть стоит копейки, а не 20 лямов.
PS Не то, чтобы меня хоть сколько-нибудь волновала судьба Информатики в РФ, но нап%%дели с три короба.
Я бы так не улыбался на фото)
двадцатку они получат если ключевые KPI не выполнят.
Встретимся через n лет после проверок. Не так сложно взять денег у государства, куда сложнее не присесть после на проблемы.
(Много видел, много слышал, в одной из контор, в которой работал, гендир еще два года после закрытия компании ночами после основной работы пилил отчеты для проверяющих органов)
Зачем так долго ждать? Сейчас в военкомат позовут, на этом история и закончится.
да, брать у государства это как подписать сделку с дьяволом ))