Генеральный директор Tazeros Global Systems Артур Хачуян: «Вряд ли у кого-то есть больше данных, чем у нас»
Беседует автор YouTube-канала «Заметки предпринимателя» и генеральный директор образовательного холдинга «Нетология-групп» Максим Спиридонов.
Что такое большие данные
Все, когда слышат о больших данных, представляют себе сразу такую гигантскую базу данных, в которую собирается что-то. Однако люди научились собирать огромные массивы данных ещё 10–15 лет назад или даже больше.
Дело в том, что собрать их проблемы не составляет — нужно правильно (возможно, даже в реальном времени) вычленить из этих данных какие-то знания. Большие данные — это набор алгоритмов, позволяющий из традиционных источников данных, когда их много, вычленять новые смыслы и знания.
Кто лучше всего использует данные
Из трёх пунктов — люди, государство и компании — понятное дело, что на последнем месте находятся люди, ведь они до сих пор не могут обуздать этот механизм. Но уже сейчас появляются, например, журналисты, которые научились пользоваться реестрами госзакупок и проводить расследования. Это первая ступень того, как подобные технологии проникнут в массы, и любая баба Люба сможет понимать, сколько стоила закупка труб для её подъезда.
На втором месте у нас государство. У государства очень много интересных, нужных и полезных данных, но, к сожалению, использовать их оно пока не научилось.
На первом месте, само собой, частные компании вроде Facebook и Google, которые обладают наибольшим объёмом данных и умеют их обрабатывать. Они, в отличие от государства, не получают некий статический бюджет — им нужно каждый раз на этих данных зарабатывать бабло. Это бабло двигает алгоритмы, и из каждого килобайта выжимают последние рубли.
О пути к большим данным
Мой путь был в некоем пузыре. Я занимался параллельно вычислениями, программированием. Потом начал заниматься биржевыми роботами, в тот момент как раз бросил университет и перешёл в компанию, в небезызвестное агентство «Апостол», которое все поливают грязью. Несмотря на то что там полностью отсутствовали бизнес-процессы, там было огромное количество крутых заказчиков, естественно, было очень много денег и огромное количество задач, которые можно решить.
Туда приходит молодой, амбициозный, с юношеским максимализмом Артур, видит, что половина отчётов рисуется в Illustrator, половина данных собирается ручками в Excel, и говорит: «А давайте-ка я напишу скрипт, который сначала это соберёт, а потом вот это соберёт».
Потом я понял, что эти компании зарабатывают огромное количество денег и 95% заработка тратят на поддержание коллектива, штата, людей, когда с этим всем может справиться парочка алгоритмов.
Тогда ещё никто не слышал о машинном обучении. О больших данных ещё в новостях не писали, но в тот момент мы уже начали собирать все открытые источники, что нам были доступны, в гораздо большем объёме, чем это делали мониторинговые компании.
О компаниях
SocialDataHub был моей первой игрушкой, где я поигрался с серьезными деньгами. Это был офигенный проект для коммерческого рынка: слоган «Испытай data-оргазм», офигенный пиксель-арт, но всё-таки это было не то, что через пять лет может выйти на IPO. Поэтому мы решили его немного облагородить.
Первая попытка — компания Fubutech — юрлицо для работы с нашим государством: серьезные шрифты, чёрное на белом, серьёзные картинки. Сейчас же мы всё это соединили вместе в Tazeros Global и пытаемся собрать что-то приличное, усидеть на двух стульях.
О конкурентах
В России у нас единственный большой и живой конкурент — OneFactor (дочерняя компания Mail.ru Group), но эта компания в своём сверхвысокодоходном рынке находятся, а мы просто в высокодоходном. Дело здесь даже не в данных, так как вряд ли у кого-то есть больше данных, чем у нас.
Те исследования, что мы сейчас можем продать за десять миллионов, OneFactor спокойно продадут за 150. Но у Mail.ru Group есть только данные Mail.ru Group, а у нас есть всё. Я не буду говорить, что у меня есть полная копия «ВКонтакте». Юридический департамент запрещает это делать.
О конфликте с Facebook
Всем нашим сотрудникам Facebook прислал письма с примерно следующим содержанием: вы продаёте технологию распознавания лиц Кремлю, и вообще вы уроды, а корпорация Facebook работает на благо пользователей. Подтекст же был очень простой: зарабатывать на данных пользователей Facebook может только Facebook. Удалили все аккаунты нашей команды. Мы написали в аналог ФАС в Ирландии, но дошло наше заявление или нет, не знаем.
О самых странных заказах клиентов
Большинство бредовых запросов приходит с коммерческого рынка. Последнее, над чем мы очень долго ржали: одно рекламное агентство, которое попросило найти всех женщин, которые используют бесцветную помаду.
«У вас там большие данные, распознавание образа», — сказали они. А я им говорю: «Вы как можете по фотографии определить, что у девушки бесцветная помада?». Выход мы нашли — использовали данные магазинов и ОФД о чеках, но смеялись очень долго.
О паранойе и тотальной слежке
У меня есть здравый уровень паранойи с учётом того, в какой сфере я работаю. Я всегда говорю, что еду заказываю в соседний подъезд, чтобы не светить домашний адрес, потому что сервисы доставки постоянно теряют данные — их то и дело куда-то в Tor выливают. Но я не заклеиваю веб-камеру: спокойно отношусь к тому, что кто-то может меня голым увидеть. Мне кажется, при определённом уровне цифровой гигиены, когда мы понимаем, зачем и что мы опубликовали, нам через десять лет не станет стыдно, всё должно быть хорошо.
Подробнее о работе Артура с государством, блокировке Telegram, Роскомнадзоре и навыках, необходимых для работы в больших данных, — в полной версии интервью и группе во «ВКонтакте».