Как быть в курсе всего, но не сойти с ума от потока информации

Всем привет! Хочу поделиться способом получать информацию своевременно, дозированно и только самое главное.

Предыстория

В недавнем исследовании было показано, что 75% пользователей мессенджера Telegram считают его основным источником новостей. Это неудивительно, ведь для новостей особенно важная временная составляющая и где, как не в мессенджере с уведомлениями можно ее получить. Новостные агентства давно выкладывают новости в собственные каналы, а пользователи в онлайне видят все интересующее их не выходя из любимого мессенджера. Но кое-что здесь работает не совсем так как хотелось бы.

Проанализировав свои подписки, я заметил, что бОльшая часть постов остается непрочитанной. Неудивительно, ведь бОльшая часть постов на самом деле и не очень-то важны, а действительно интересные новости до вас дойдут от кого-нибудь из знакомых. И это справедливо для тематик, которые вы действительно обсуждаете с друзьями или коллегами. Но у меня большая часть каналов, на которые я подписывался - это более специализированные темы, которые мне особо не с кем обсудить. Так я замечаю, что будучи подписанным на пару технологических каналов я совсем не в теме последних интересных новостей оттуда. Та же ситуация с новостями экономики, финансов, акций, криптовалют, стартапов. Это неприятно, потому что "быть в курсе" - это что-то вроде успевать прочитать все и запомнить важное, верно?

Что я сделал?

Чтобы переосмыслить эту проблему "быть в курсе" широкого пласта тематик, я решил подойти с другой стороны. А что если заменить последовательность "читать все" -> "выделять главное" -> "запоминать главное" на способ "выделять главное, и читать ТОЛЬКО это"? Но как выделять главное, не читая?

На самом деле ответ у меня уже был под рукой. За последнее время я сделал несколько проектов, в которых новостной поток из телеграм-каналов по тому или иному сценарию обрабатывался и на выходе получался поток с новыми характеристиками.

В данном случае мне необходимо было определить, является ли тот или иной пост достойным внимания. Телеграм позволяет считывать помимо количества просмотров, также и количество репостов (пересылок) поста, а оношение второго к первому определяет в каком-то смысле ценность текста для читателей. Если они начинают его пересылать друг другу, то что-то интересное и достойное внимания там скорее всего есть.

Параметры

Чтобы отделить зерна от плевел я проанализировал динамику репостов в большом количестве каналов и выявил, что всего 5-10% сообщений удостаиваются большого количества репостов. В моем случае я выбрал порог 1% от просмотревших переслали сообщение.

Чтобы достоверно определить этот показатель после появляения сообщения приходтся выжидать некоторое время, чтобы статистика успела набраться. В данном случае достаточно 5 минут, чтобы тысячи человек успели прочитать пост и сделать (или не сделать) репосты. То есть через 5 минут после выхода новости я уже знаю, является ли она "вирусной" или нет.

Еще одна проблема, которая у меня возникла - это фильтрация дубликатов. Ведь если новость действительно всех касается, ее начинают выкладывать все кому не лень. Эту проблему я тоже смог побороть и сейчас все работает почти безошибочно.

Что получилось

В итоге у меня получился один телеграм канал вместо двадцати одного (и это только новости экономики, финансов, акций, криптовалют, стартапов)!

В конце каждого сообщения добавляется количество просмотров, репостов сообщения и их отношение (чтобы понимать, насколько широко новость интересна), кроме того идет ссылка на оригинал (канал и сам пост), чтобы можно было посмотреть при необходимости в первоисточнике.

Мне нравится давать красивые имена своим проектам, поэтому этот я назвал как газету в книжке про Гарри Поттера - "Ежедневный пророк", потому что есть здесь какая-то магия, подсматривать, чем люди делятся=)

Если вам понравился мой способ, можете присоединяться, все ссылки у меня в канале.

Всем добра!

2828
18 комментариев
Комментарий удалён модератором

Идиотизм какой то. Пишет посты, потом смотрит топовые и их читает. Вот и весь способ получать информацию своевременно, дозированно и только самое главное. 
Представляю какую хрень он там пишет в своей телеге))

4
Ответить

Идея интересная, но система пока работает плохо. Ну слетал какой то хрен в космос и что? А у вас в канале эта новость повторяется 4 раза.
Вы же вроде время пытаетесь сэкономить. Или тот же спорт. Как результат матча повлияет на вашу жизнь, если вы не делаете ставки. Никак.
Нужно оставлять новости только с реальным воздействием на среду вашего существования сейчас или важным вероятностным воздействием в будущем. Все остальные удалять. А вот каким алгоритмом это делать уже другой вопрос.

11
Ответить

Идея не совсем в этом.

Это просто способ трансформировать «я подписался на 20 каналов, чтобы быть в курсе 5 тем, но не читаю ни одного, потому что их 20» в «я читаю только наиболее цитируемые материалы из всего потока».

Итого я «читаю немного», вместо «не читаю совсем (из-за того что много)» и я в целом в курсе всего основного.

Явные дубликаты у меня алгоритм чистит, а если идёт развитие темы, то наоборот это интересно.

Благодарю за комментарий, интересно услышать критику тоже)

2
Ответить

В обработке естественного языка (Natural language processing) есть и задача ранжирования и сокращения объема текста (авто-реферирование, аннотация или даже генерация заголовка).
Вот пример более технической статьи по созданию агрегатора новостей:
https://towardsdatascience.com/building-a-news-aggregator-from-scratch-news-filtering-classification-grouping-in-threads-and-7b0bbf619b68

1
Ответить

Я несколько лет работал в Data Science, в том числе в теме NLP. К сожалению, продакшен решений, в которых текст нелинейно преобразуется и у вас не начинает течь кровь из глаз из-за некоторых перлов фактически не существует, несмотря на громадный прогресс в части контекстных эмбеддингов и генеративных моделей, произошедший в последние годы.

1
Ответить

Главное, что вы пытаетесь решить проблему.
А есть ли проблема, и найдете ли вы решение, покажет время.

Желаю терпения и умения лучше формулировать мысли (для этого их надо обдумывать подольше, обсуждать сначала приватно с близкими по духу, а уж потом и в паблик можно выносить - сэкономите время свое и читателей).

1
Ответить