«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Отрывок из книги «Десять уравнений, которые правят миром, и как их можете использовать вы» Дэвида Самптера, которую выпустило издательство МИФ.

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Уравнение рекламы

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Сначала я подумал, что это электронное письмо — спам. Оно начи­налось с приветствия: «Мистер Самптер:», а в мире мало реальных людей, которые используют двоеточие в начале письма. Даже когда я прочитал текст — просьбу комитета по предпринимательству, науке и транспорту Сената США в Вашингтоне, округ Колумбия, о беседе со мной, — я оставался скептиком.

Странным показался уже сам факт, что просьба пришла в форме электронного письма. Не знаю, чего стоило ожидать, но я с подозрением отнесся к со­седству длинного и подробного названия комитета и неформаль­ного обращения за помощью. Не сходилось.

Однако всё было правильно. Комитет Сената действительно хо­тел побеседовать со мной. Я отправил короткий положительныи ответ, и через несколько дней мы общались по скайпу с людьми из республиканской части комитета.

Они желали узнать о компании Cambridge Analytica, которую Дональд Трамп нанял для обраще­ния к избирателям в соцсетях и которая предположительно соби­рала данные о десятках миллионов пользователей Facebook*. В СМИ уже имелись две стороны истории Cambridge Analytica.

Одна сто­рона — блестящее представление Александра Никса, тогдашнего CEO, который заявлял, что использует алгоритмы в политических кампаниях для микротаргетинга. Другая — разоблачитель Крис Уайли с крашеными волосами, который утверждал, что помогал Никсу и его компании создать инструмент для «психологической войны». Впоследствии Уайли сожалел о своих действиях, которые позволили избрать Трампа, а Никс создавал свой бизнес в Африке, опираясь на свой «успех».

В 2017 году, за год до скандала, я детально исследовал алгоритм, который использовала Cambridge Analytica, и пришёл к заклю­чению, противоречащему обеим версиям событий — и Никса, и Уайли. Я сомневался, что компания могла повлиять на президент­ские выборы в США.

Она, конечно, пыталась, но я обнаружил, что методы, которые, по их словам, использовались для таргетинга из­бирателей, были с изъяном. Мои заключения привели к странной ситуации, когда я оспаривал оба имеющихся варианта изложения.

Вот почему комитет Сената желал поговорить со мной. Больше всего республиканцы из администрации Трампа весной 2018 года хотели узнать, что делать с грандиозным скандалом вокруг рек­ламы в социальных сетях.

Прежде чем мы сможем помочь сенаторам, нам нужно понять, как нас видят создатели соцсетей. Для этого мы будем рассматривать людей как наблюдения (так делают и компании) и начнём с самых активных и важных: подростков.

Эта группа желает увидеть как можно больше и как можно быстрее. Каждый вечер можно на­блюдать, как они — либо вместе на диване, либо (всё чаще) в оди­ночестве в спальне — быстро щелкают и листают странички на своих любимых платформах в соцсетях: Snapchat и Instagram*.

Через окошко своих телефонов они могут видеть невероятные картины мира: гномов, падающих со скейтбордов; пары, идущие на свидания «правда или действие»; собак, играющих в Fortnite; малень­ких детей, сующих руки в пластилин Play­Doh; девочек­-подростков, стирающих макияж; или «сцепленные» истории из текстовых диа­логов между воображаемыми студентами колледжа. Они переме­жаются сплетнями о знаменитостях, крайне редкими реальными новостями и, конечно, регулярной нескончаемой рекламой.

Внутри Instagram*, Snapchat и Facebook* создаётся матрица на­ших интересов. Это набор чисел в виде таблицы, где в строках — люди, а в столбцах — типы «постов» или «снимков», на которые они нажимают. В математике мы представляем таблицу подрост­ковых кликов в виде матрицы, которую обозначим M. Вот пример для иллюстрации в гораздо меньшем масштабе: так выглядит мат­рица некой соцсети для двенадцати пользователей.

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Каждое число в матрице показывает, сколько раз подросток кликнул по конкретному типу постов. Например, Мэдисон по­смотрела 8 постов о еде, по 6 о косметике и Кайли Дженнер, ни одного о ютьюбере Пьюдипае и видеоигре Fortnite и 2 публика­ции о рэпере Дрейке.

Просто глядя на эту матрицу, мы можем получить хорошее пред­ставление о том, что за человек Мэдисон. Попробуйте представить её себе, а потом потратьте несколько секунд, чтобы вообразить некоторых других персонажей, которых я ввёл здесь, используя в качестве ориентиров просмотренные ими снимки. Не беспокоийтесь. Это не настоящие люди. Вы можете быть сколь угодно кате­горичными.

В матрице есть ещё несколько человек, похожих на Мэдисон. Например, Сэм любит косметику, Кайли Дженнер и еду, но прояв­ляет незначительный интерес к другим категориям. Есть и люди, которые резко отличаются от Мэдисон. Джейкоб, как и Лорен, предпочитает Пьюдипая и Fortnite. Некоторые не совсем вписыва­ются в два этих типа. Скажем, Тайлер любит Дрейка и косметику, но интересуется Пьюдипаем.

Уравнение рекламы — математический способ автоматически определять тип людей. Оно имеет следующую форму:

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Оно измеряет корреляцию между различными категориями снимков. Например, если люди, которые обычно ставят лайк Кайли Дженнер, также ставят лайк и косметике, то r (косметика, Кайли) будет по­ложительным числом. В этом случае мы говорим, что существует положительная корреляция между Кайли и косметикой. Но если люди, которые ставят лайки Кайли, обычно не ставят их Пьюди­паю, r (Пьюдипай, Кайли) будет отрицательным числом, и мы назовем это отрицательной корреляцией.

Чтобы понять, как работает уравнение 7, разберем его шаг за шагом начиная с M (i,x). Это число в строке i и столбце x нашей матрицы M. Мэдисон 6 раз просматривала посты о косметике, поэтому M(Мэдисон, косметика) = 6: у нас строка i = Мэдисон, а столбец x = косметика.

В общем случае каждый раз, когда мы смотрим на число в строке i и столбце x матрицы, то видим M(i,x). Взглянем на Ḿ(х). Эта величина — среднее число постов в категории x, приходя­щееся на одного пользователя. Например, среднее число просмот­ренных публикаций о косметике для наших подростков таково:

Ḿ(косметика) = (6+6+0+0+9+6+7+3+0+4+7+0)/12 = 4.

Если мы вычтем среднюю заинтересованность в косметике из общего числа публикаций, просмотренных Мэдисон, то полу­чим:

M(i,x)Ḿ(х) = 6–4 = 2.

Это говорит нам, что Мэдисон интересу­ется косметикой выше среднего. Аналогично, вычислив Ḿ(Кайли) = 5, мы видим, что она также (слегка) выше среднего интересуется Кайли Дженнер, поскольку:

M(i,y)Ḿ(y) = 6–5 = 1, если i = Мэдисон, а y = Кайли.

А теперь переходим к мощной интересной идее, лежащей в ос­нове уравнения 7: если мы перемножим (M(i,x)Ḿ(х)) · (M(i,y)Ḿ(y)), то определим те интересы, которые, как правило, у людей общие. Для Мэдисон мы получаем:

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Это говорит нам о том, что между её интересом к Кайли и кос­метике существует положительная корреляция.

Для Тайлера взаимоотношения между косметикой и Кайли отрицательные: (6 – 4) ∙ (1 – 5) = 2 ∙ (–4) = –8. Он про­являет интерес только к первой. Для Джейкоба величина снова положительна: (0 – 4) ∙ (0 – 5) = (–4) ∙ (–5) = 20, так как ему не нра­вятся ни первая, ни вторая (см. рис. 7).

Обратите внимание на один нюанс. И у Джейкоба, и у Мэдисон положительное значение, хотя у них противоположные взгляды на Кайли и косметику. Однако их взгляды предполагают, что Кайли и косметика коррелируют между собой, хотя Джейкоб вообще никогда не смотрел ни на ту, ни на другую. Поведение Тайлера в социальной сети не соответствует такой закономерности.

Мы можем произвести расчёты для каждого из подростков и сложить все такие величины. Получится сумма:

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Знак Σi указывает, что мы берём сумму по всем двенадцати тинейджерам. Сложив все произведения, где перемножены отноше­ния подростков к косметике и к Кайли, получим:

2–8+20–16+10+8+6+2+20+0+9+16=69.

Бoльшая часть слагаемых положительна: это показывает, что дети имеют схожее отношение к Кайли и косметике. Среди тех, кто вносит свой положительный вклад в сумму, — Мэдисон и Джейкоб: 2 и 20 соответственно. Исключения — Тайлер, кото­рому не нравится Кайли, и Райан, которому не нравится косме­тика; зато Кайли Дженнер по душе. Именно эта пара дала слага­емые –8 и –16.

<p>Рис. 7. Иллюстрация к вычислению корреляции между Каили и косметикои</p>

Рис. 7. Иллюстрация к вычислению корреляции между Каили и косметикои

Математики не любят больших чисел вроде 69. Мы предпочи­таем, чтобы они были меньше, лучше между 0 и 1, так их удобно срав­нивать. Для этого мы добавим в уравнение 7 знаменатель (нижнюю часть дроби). Я не стану подробно разбирать это вычисление, но если мы подставим все наши числа, то получим:

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Мы получили одно ­единственное число 0,51, которое измеряет корреляционную зависимость между косметикой и Кайли. Значе­ние 1 показывало бы идеальную корреляцию между этими двумя типами постов, значение 0 говорило бы об отсутствии связи. Так что реальное значение 0,51 даёт нам среднюю корреляцию между любовью к косметике и к Кайли Дженнер.

Я понимаю, что провёл уже довольно много вычислений, но мы нашли только одно из пятнадцати важных чисел, отражающих предпочтения подростков! Нам бы хотелось узнать корреляцию не только между косметикой и Кайли, но и между всеми категори­ями: еда, косметика, Кайли, Пьюдипай, Fortnite и Дрейк.

К счас­тью, мы уже в курсе, как вычислить один коэффициент корреля­ции с помощью уравнения 7, — остаётся только подставлять в это уравнение каждую пару категорий. Именно это я сейчас и сделаю. Получится то, что известно под названием корреляционной мат­рицы, которую мы обозначим как R.

Если вы посмотрите на пе­ресечение строки «Кайли» и столбца «Косметика», то увидите найденное нами ранее число 0,51. Точно так же заполняются и ос­тальные строки матрицы — для всех пар категорий.

Например, Fortnite и Пьюдипай дают корреляцию 0,71. Но есть и такие пары, как Fortnite и косметика, которые дают коэффициент –0,74, то есть коррелируют отрицательно. Это означает, что геймеры, как пра­вило, не особо интересуются косметикой.

«Внутри Instagram* и Snapchat создаётся матрица на­ших интересов»: как математика помогает определять тип людей

Корреляционная матрица группирует людей по типам. Когда я просил вас представить себе этих подростков и не стесняться быть категоричными, я предлагал вам самим построить такую мат­рицу. Корреляция Кайли/косметика относит к одному типу таких подростков, как Мэдисон, Алисса, Эшли и Кайли, а корреляция Пьюдипай/Fortnite относит к другой группе Джейкоба, Райана, Моргана и Лорен. А вот Тайлер и Мэтт не вполне подходят под такую простую категоризацию.

В мае 2019 года я спрашивал Дуга Коэна, специалиста по данным из Snapchat, о той информации о пользователях, которую они хра­нят в корреляционных матрицах. «Ну, это почти всё, что вы делаете в Snapchat, — отвечал он. — Мы смотрим, как часто наши пользо­ватели разговаривают в чатах с друзьями, сколько у них полос об­щения, какими фильтрами пользуются, как долго разглядывают карты, в скольких групповых чатах сидят, сколько времени тратят на просмотр контента или когда читают истории своих друзей. И мы смотрим, как эти действия коррелируют друг с другом».

Данные анонимны, поэтому Дуг не знает, чем занимаетесь кон­кретно вы. Но такие корреляции позволяют Snapchat категоризи­ровать пользователей — от «одержимых селфи» и «документалис­тов» до «див макияжа» и «королев фильтров», если пользоваться внутренней терминологией компании.

Как только компания узнаёт, что привлекает определённого пользователя, она даёт ему это в большом количестве. Слушая, как Дуг описывает свою работу по привлечению людей, я не мог не прокомментировать: «Погодите! Я, как родитель, стараюсь, чтобы мои дети пользовались телефоном меньше, а вы трудитесь, чтобы повысить их вовлеченность!».

Дуг парировал, слегка уколов конкурентов: «Мы не просто стараемся максимизировать время, проведённое в приложении, как традиционно делал Facebook*. Мы следим за уровнем участия, смотрим, как часто пользователи возвращаются. Мы помогаем им общаться с друзьями».

Snapchat не претендует на то, чтобы мои дети проводили у них всё свое время, но компания желает, чтобы они снова и снова воз­вращались. И по личному опыту могу сказать, что это работает.

*Meta, которой принадлежат Instagram и Facebook, признана в России экстремистской организацией и запрещена.

5757
12 комментариев

Господи, как же плохо всё в этой статье. Начиная от дилетантской математики уровня "я изобрел ковариационные матрицы" и заканчивая абсолютно смешным представлением о том, как работает аналитика в больших компаниях.

7
Ответить

Напиши свою статью, ну или хотя бы аргументов накидай в чем автор ошибается касательно аналитики ;)

5
Ответить

Да вроде все норм в статье. Простыми словами объяснили как работает коллаборативный фильтеринг. Конечно в крупных компаниях все несколько сложнее, есть и гибридные модели и всяко другие вариации того же ML в пайплайнах рекомендательных движков. Но сама идея в целом остаётся такой же, просто фичей гораздо больше и механизмы работы с ними сложнее:)

4
Ответить

Комментарий недоступен

1
Ответить
1
Ответить

Комментарий недоступен

Ответить

Числа, верно числом можно измерить всё. Выкладки для специалистов. Но по теме статьи: сказана суть того что расчёты для бизнеса...И что это вмешивается в жизнь. Формируется ориентирование на маркетинг... Но ещё наблюдается... действия человека законо ли это...В таком ракурсе...Если я правельно понял тему статьи.

2
Ответить