Цифровой мир Льва Толстого: как мы помогли перевести материалы о великом писателе в интерактивный формат

Цифровой мир Льва Толстого: как мы помогли перевести материалы о великом писателе в интерактивный формат

Привет читателям и почитателям творчества Льва Толстого и, конечно, тем, кто интересуется миром ИТ во всех его проявлениях!

Поистине уникальное свойство технологий – это их применимость в различных областях человеческой деятельности. Сегодня искусственный интеллект, нейросети, компьютерное зрение и другие виды ИТ находят свое место в гуманитарных областях знания. А их симбиоз с историческими или литературными материалами позволяет создавать удивительные вещи.

В этом году Content AI приняла участие в крайне важном по значимости для нашей страны и мировой художественной культуры в целом проекте «Слово Толстого». Это цифровой путеводитель по наследию великого писателя, созданный командой Tolstoy Digital и ставший результатом многолетнего труда филологов, историков и специалистов в области Digital Humanities.

Благодаря технологиям Content AI проект был дополнен биографическим двухтомником «Летопись жизни и творчества Л.Н. Толстого» Николая Гусева. Какая перед нами стояла задача и что получилось в итоге, расскажу дальше.

Экскурс в историю

Сотрудничество Content AI и группы Tolstoy Digital, которая под руководством праправнучки писателя Феклы Толстой ведет работу над сохранением наследия писателя и его переводом в цифровой вид, длится уже не первый год. Впервые наши технологии распознавания и обработки информации были использованы в 2014 году для создания электронной версии 90-томного собрания сочинений писателя «Весь Толстой в один клик». Тогда стояла задача перевести в форматы электронных книг (ePub, fb2, html, mobi), а также в PDF с текстовым слоем самое полное собрание сочинений Толстого. Оно выпускалось в течение 30 лет: с 1928 по 1958 год. Узнать подробности этого проекта можно в нашем блоге на Хабре.

За минувшие 10 лет группа Tolstoy Digital проделала колоссальную работу на основе оцифрованных материалов. Ее результатом стал проект «Слово Толстого» – цифровой путеводитель по наследию писателя. По сути, это справочно-информационная платформа, созданная на основе 90-томного cобрания сочинений Льва Толстого. Она дает возможность осуществлять поиск по огромному корпусу текстов писателя, обеспечивает удобную навигацию по ним и предоставляет справочные, корпусные и словарные материалы для профессионалов и для широкой аудитории читателей.

Интеллектуальное прочтение

Новым этапом в развитии платформы стало добавление текстов о писателе: детальных биографических материалов, записок его современников, дневников, ежедневников, писем членов семьи, друзей и близкого окружения Толстого.

Content AI отвечала за извлечение и обработку информации из двухтомного издания «Летопись жизни и творчества Льва Николаевича Толстого» авторства литературоведа и личного секретаря писателя Н.Н. Гусева. Задача была нетривиальной. В отличие от 2014 года, когда тексты распознавались и переносились в электронный формат, сейчас, помимо этого, требовалось извлечь из оцифрованного материала различные данные. При этом издание представляет собой не художественное повествование, а справочно-информационный документ. В двухтомнике Гусев последовательно и детально, практически по дням, фиксирует события жизни Толстого с указанием дат, мест и добавлением авторских комментариев. Все эти многочисленные атрибуты нужно было отметить и выделить:

  • Год (включая вариации: «1863», «в этом году»)
  • Дата: (включая вариации: «Апрель», «последние числа мая», «условный символ месяца»)
  • Начальная страница
  • Конечная страница
  • Событие
  • Источник
  • Комментарий
Цифровой мир Льва Толстого: как мы помогли перевести материалы о великом писателе в интерактивный формат

Извлеченные из двухтомника данные нужно было представить в виде таблицы, конвертируемой в XML. В дальнейшем эта информация легла в основу детальной базы данных событий из жизни Толстого.

Слово за технологиями

Проанализировав материал, технические эксперты Content AI пришли к выводу, что PDF-редактор, который использовался для оцифровки собраний сочинений Толстого, для этой задачи не подходит. Поэтому было решено использовать универсальную платформу для интеллектуальной обработки информации ContentCapture. В ее основе лежат самые современные технологии оптического распознавания символов (OCR) и обработки естественного языка (NLP), которые позволяют с высокой точностью извлекать из любых текстов нужную информацию и обрабатывать ее по определенному сценарию.

Вот как проходила работа:

На этапе подготовки наши инженеры разработали логику поиска и извлечения атрибутов. Чтобы система четко понимала, что перед ней именно та сущность – дата, событие, источник – которую требуется пометить или извлечь, необходимо дать ей максимально четкие ориентиры. Например, указать, что «событие» начинается с красной строки и сопровождается комментарием, который оформлен курсивом и смещен относительно основного текста. Такая логика разметки документа с учетом возможной вариативности представления данных называется гибким описанием. Чем больше приводится деталей и чем более они конкретны, тем точнее будет результат извлечения данных.

На этапе обработки почти 2000 отсканированных страниц двухтомника были загружены в ContentCapture для непосредственного извлечения атрибутов с деталями каждого события. В ряде случаев использовались скрипты автокоррекции и местозаполнители.

С их помощью удалось проанализировать структуру документа, разобрать описание событий на детали, восстановить пропущенные в тексте или представленные иносказательно данные, например, «в том же году».

Цифровой мир Льва Толстого: как мы помогли перевести материалы о великом писателе в интерактивный формат

Определенную трудность создавало наличие большого количества условных сокращений, требующих расшифровки, разнесение случаев, когда на одну дату приходится несколько абзацев основного текста, и трактовка событий, когда запись начинается на одной странице, а заканчивается на другой. Для этих ситуаций прорабатывались индивидуальные алгоритмы действий, которые позволили точно зафиксировать каждый факт и сопровождающий его контекст, ведь в работе над исторически значимым документом любая деталь имеет значение.

Больше чем просто текст

Результатом работы Content AI стал структурированный документ в формате XML, где каждый атрибут связан с дополнительными справочными материалами. На основе этого файла команда Tolstoy Digital разработала календарь, в котором в удобной форме можно изучать биографию писателя. У пользователей есть возможность искать нужную информацию, используя многочисленные фильтры: период времени, тип источника, упоминаемые произведения и персоны. Календарь опубликован на сайте проекта «Слово Толстого».

Цифровой мир Льва Толстого: как мы помогли перевести материалы о великом писателе в интерактивный формат

Еще один интерактивный раздел, где использованы оцифрованные данные двухтомника «Летопись жизни и творчества Л.Н. Толстого», — таймлайн. Он визуализирует самые значимые события биографии писателя в разбивке по категориям: частная, общественная, внутренняя жизнь, семья, литература.

Цифровой мир Льва Толстого: как мы помогли перевести материалы о великом писателе в интерактивный формат

Команда Tolstoy Digital планирует передать все собранные данные в Институт русского языка РАН для создания «Словаря языка Толстого». Проект «Слово Толстого» также будет пополняться новыми материалами, чтобы к 200-летию со дня рождения писателя в 2028 году представить самый полный цифровой архив его наследия.

Почему это важно

История сотрудничества Content AI и команды Tolstoy Digital — яркий пример того, как искусственный интеллект помогает сохранять и изучать культурное наследие. Наша платформа ContentCapture доказала, что даже самые сложные тексты можно не только оцифровать, но и сделать их частью интерактивной образовательной экосистемы.

С развитием технологий появляются все новые способы обработки и анализа информации. Это открывает большие возможности для работы с историческими источниками. И мы будем рады делиться инструментами и инновациями, которые позволят дать современному поколению доступ к культурному и историческому наследию в новых удобных форматах.

5
Начать дискуссию