Делал похожую поделку. Распарсил новостной сайт за год (брал только заголовки). Слова нормализовал и отрезал пустые слова по стоп-листу. Затем графиком нарисовал частоту упоминания этого слова за день: гипотеза в том, что если какое-то явление начинает маячить день-два, то это какой-то локальный хайп, особенно если это упоминание компании, и надо его затестить на корреляцию с ценой акции. Нужно прикрутить named entity recognition обязательно, а то слов много, а смысла мало)
Делал похожую поделку. Распарсил новостной сайт за год (брал только заголовки). Слова нормализовал и отрезал пустые слова по стоп-листу. Затем графиком нарисовал частоту упоминания этого слова за день: гипотеза в том, что если какое-то явление начинает маячить день-два, то это какой-то локальный хайп, особенно если это упоминание компании, и надо его затестить на корреляцию с ценой акции.
Нужно прикрутить named entity recognition обязательно, а то слов много, а смысла мало)