Как The New York Times тестирует заголовки статей

Перед вами перевод статьи из блога Tom Cleveland. Он рядовой американский программист, но интересуется журналистикой. Чувак проанализировал работу The New York Times над заголовками и визуализировал данные. Мне показалось это интересным, поэтому я перевёл статью и выкладываю здесь с некоторыми сокращениями.

New York Times рассказывает своим рекламодателям, что они — это источник новостей №1 для молодых и богатых идейных лидеров. NYT рисует определенную картину мира и в некоторых кругах она становится картиной мира по умолчанию, согласны вы с ней или нет.

Портрет аудитории NYT
Портрет аудитории NYT

Я хотел узнать больше об этой картине. Так что в течение следующих нескольких недель я буду публиковать серию сообщений в NYT, опираясь на данные, взятые с их первой страницы и взятые из их официального API.

Эта статья посвящена A/B-тестированию: как NYT тестирует разные заголовки и как они меняются с течением времени.

А/B-тестирование в The New York

Ладно, сейчас идёт 2021 год — было бы шоком, если бы New York Times не использовала в заголовках A/B-тестирование.

И они открыто об этом говорят:

NYT также практикует проведение так называемых A/B-тестов заголовков, которые появляются на его домашней странице: половина читателей будет видеть один заголовок, а другая половина — альтернативный заголовок в течение примерно получаса. В конце теста The Times будет использовать заголовок, который привлек больше читателей.

Но вопросы остались:

  • Сколько статей проходит A / B-тестирование?
  • Сколько заголовков проверяется для каждой статьи?
  • Помогает?
  • Насколько разные заголовки?

Методология

Я написал скрипт, который:

  • Парсит домашнюю страницу NYT
  • Вытаскивает все заголовки
  • Связывает их с метаданными статей из официального NYT API
  • Запихивает заголовки в базу данных

Скрипт запускается каждые пять минут. Я начал делать это 13 февраля 2021 года, поэтому всё, что будет дальше, основано на данных с этого времени.

Результаты

NYT действительно проводит A / B-тестирование своих заголовков. Примерно 29% статей имеют несколько заголовков, а наибольшее количество заголовков, наблюдаемых для одной статьи (на данный момент), составляет восемь.

Среднее количество заголовков для одной статьи
Среднее количество заголовков для одной статьи

Многие из этих изменений заголовков довольно незначительны — NYT обычно исправляет ошибки в заглавных буквах или пунктуации после публикации статьи.

И иногда кажется, что редакторы не могут определиться: следует ли писать заглавными буквами?

Как The New York Times тестирует заголовки статей

В других случаях NYT меняет заголовки по мере развития сюжета. Вот отличная история, рассказанная в заголовках:

Как The New York Times тестирует заголовки статей

Но большинство смен заголовков — это явно A / B-тесты, требующие большого количества кликов.

Вот статья о стиле правления Байдена с довольно драматичным изменением заголовка:

Как The New York Times тестирует заголовки статей

Единственная причина для такого рода изменений — попытка повысить вовлеченность. И это сработало! Эта статья попала в список «самых просматриваемых» через несколько часов после смены заголовков (что подтверждает мою теорию о том, что либералы любят читать о Трампе).

Но не все A / B-тесты имеют такой успех. Вот A / B-тест, который определенно провалился (возможно, придется прищуриться, чтобы увидеть крошечное синее пятно на меньшем экране):

Как The New York Times тестирует заголовки статей

Надеюсь, эта неудача не отпугнула чокнутого редактора, стоявшего за «Прыгающим Иосафатом!». NYT определенно может использовать больше Bugs Bunny-isms (непереводимый американский фольклор — прим. А.Березового).

Но в целом у этих A / B-тестов есть закономерность: со временем заголовки становятся все более драматичными. Возьмите эту статью о секс-скандале Куомо:

Как The New York Times тестирует заголовки статей

При первой смене заголовка Куомо переходит из нападения в осаду, а во второ смене он больше не пересматривает свой план, он извиняется.

И это работает: по мере изменения заголовка мы видим, что статья поднимается в рейтинге «самых просматриваемых».

В этой статье об адресе CPAC Трампа заголовки становятся еще ярче:

Как The New York Times тестирует заголовки статей

Трамп начинает с обращения к консерваторам и утверждения лидерства G.O.P. (Республиканская партия — прим. А.Березового), но в последнем заголовке у Трампа есть расстрельный список, и он делает предупредительный выстрел. И действительно, напыщенная риторика продвигает эту статью в список «самых просматриваемых».

Теперь последний пример: эта чрезвычайно популярная статья об интервью Опры с Меган Маркл:

Как The New York Times тестирует заголовки статей

Я смотрел это интервью — все два часа — и могу сказать вам, что первые два заголовка намного лучше отражают то, что произошло. Да, Меган раскрывает, что подумывала о самоубийстве, но это пятиминутный перерыв в интервью, в котором происходит гораздо больше. Например, ни в одном из этих заголовков не упоминается роль, которую расизм сыграл в бедственном положении Меган — тема, которая отнимает у экрана гораздо больше времени, чем её суицидальные мысли.

Работает ли это?

Приведенные выше статьи стали намного популярнее после некоторого A / B-тестирования — но работает ли это в целом?

Я подсчитал, что статьи NYT, прошедшие A / B-тестирование, на 80% чаще попадают в «самые популярные» списки. И, что неудивительно, больше тестирования заголовков коррелирует с большей вовлеченностью:

Как The New York Times тестирует заголовки статей

Предостережение: количество заголовков и вовлеченность взаимосвязаны, но кто знает, в каком направлении работает причинно-следственная связь. Мне кажется логичным, что чем больше вы тестируете заголовок, тем больше вероятность того, что ваша статья получит общий доступ / лайк / клик.

Но также возможно, что NYT тратит больше времени на настройку уже популярных статей. Хотя, как ни странно, во многих статьях, которые я просмотрел, заголовки часто меняются, прежде чем статья попадает в большинство чартов).

Итак, что я узнал?

NYT проверяет заголовки, чтобы повысить вовлеченность.

Вау. (сарказм)

В целом, А/В тестирование имеет ограниченное применение.

Я очень удивлен, как мало заголовков проверяется NYT. Большинство статей не проходят A / B-тестирование, а большинство статей, прошедших A / B-тестирование, имеют только два заголовка.

Я бы предположил, что редакторы NYT ставят задачу сотрудникам представить тексты с шестью возможными заголовками, и что какая-то автоматизированная система проверяет все шесть загов в первый час. Но очевидно, что это неправда — несмотря на то, что данные показывают, что большее количество A / B-тестирования повысит вовлеченность.

Одно из возможных объяснений: 62% дохода NYT поступает от подписок, и только 27% приходится на рекламу (а доход от рекламы падает из года в год). Это означает, что просмотры не так важны, как подписки, а первая страница, заполненная кликбейтами, скорее всего, отпугнет потенциальных подписчиков.

Всё это приводит к эмоционально заряженным заголовкам.

NYT обычно более сдержан, чем BuzzFeed, но мы должны помнить, что это не нейтральный наблюдатель. Как показывают приведенные выше примеры, заголовки, прошедшие A / B-тестирование, рисуют гораздо более драматичную картину, чем реальность. Постоянные читатели New York Times в конечном итоге будут думать, что мир страшнее, чем есть на самом деле.

Что дальше

В следующем посте я рассмотрю первую страницу NYT, а именно:

  • Как долго статьи остаются на первой странице
  • Какие статьи проводят больше всего (и меньше всего) времени на первой странице
  • Какой контент наиболее вероятно (и наименее вероятно) появится на первой странице
  • Как время выхода на первую страницу соотносится с общей вовлеченностью

И другие забавные штуки.

Напишите в комментариях, если вам интересно!

Эту статью для вас перевёл

Алексей Березовой
медиаэксперт, главред Дeлoбaнкa

Вы наткнулись на этот материал случайно. Чтобы гарантированно получать полезную информацию о медиа, подпишитесь на мой телеграм-канал.

8383
36 комментариев

Интересное исследование, кайфанул от погружения в тему, особенно про связку количества тестов со статьями дохода, есть над чем поразмышлять после прочтения, накинуть свои мысли.
Было бы здорово в конце собирать основные цифры в небольшую таблицу, чтобы по тексту не искать
Жду следующей статьи, спасибо!

6

Ну камон, просто почитайте про АБ тесты и проверку гипотез в продуктовой разработке, у любой заметной компании есть такое десятки лет

1

Больше похоже на многорукого бандита

Upd: а впрочем, они сами описывают процесс в своём блоге
 https://open.nytimes.com/how-the-new-york-times-is-experimenting-with-recommendation-algorithms-562f78624d26

3

Интересно, что у них блог на Medium при том, что у самих огромная медиа-платформа.

WP плагинов никто не знает под такие тесты?

1