Цифровой мир Льва Толстого: как мы помогли перевести материалы о великом писателе в интерактивный формат
Привет читателям и почитателям творчества Льва Толстого и, конечно, тем, кто интересуется миром ИТ во всех его проявлениях!
Поистине уникальное свойство технологий – это их применимость в различных областях человеческой деятельности. Сегодня искусственный интеллект, нейросети, компьютерное зрение и другие виды ИТ находят свое место в гуманитарных областях знания. А их симбиоз с историческими или литературными материалами позволяет создавать удивительные вещи.
В этом году Content AI приняла участие в крайне важном по значимости для нашей страны и мировой художественной культуры в целом проекте «Слово Толстого». Это цифровой путеводитель по наследию великого писателя, созданный командой Tolstoy Digital и ставший результатом многолетнего труда филологов, историков и специалистов в области Digital Humanities.
Благодаря технологиям Content AI проект был дополнен биографическим двухтомником «Летопись жизни и творчества Л.Н. Толстого» Николая Гусева. Какая перед нами стояла задача и что получилось в итоге, расскажу дальше.
Экскурс в историю
Сотрудничество Content AI и группы Tolstoy Digital, которая под руководством праправнучки писателя Феклы Толстой ведет работу над сохранением наследия писателя и его переводом в цифровой вид, длится уже не первый год. Впервые наши технологии распознавания и обработки информации были использованы в 2014 году для создания электронной версии 90-томного собрания сочинений писателя «Весь Толстой в один клик». Тогда стояла задача перевести в форматы электронных книг (ePub, fb2, html, mobi), а также в PDF с текстовым слоем самое полное собрание сочинений Толстого. Оно выпускалось в течение 30 лет: с 1928 по 1958 год. Узнать подробности этого проекта можно в нашем блоге на Хабре.
За минувшие 10 лет группа Tolstoy Digital проделала колоссальную работу на основе оцифрованных материалов. Ее результатом стал проект «Слово Толстого» – цифровой путеводитель по наследию писателя. По сути, это справочно-информационная платформа, созданная на основе 90-томного cобрания сочинений Льва Толстого. Она дает возможность осуществлять поиск по огромному корпусу текстов писателя, обеспечивает удобную навигацию по ним и предоставляет справочные, корпусные и словарные материалы для профессионалов и для широкой аудитории читателей.
Интеллектуальное прочтение
Новым этапом в развитии платформы стало добавление текстов о писателе: детальных биографических материалов, записок его современников, дневников, ежедневников, писем членов семьи, друзей и близкого окружения Толстого.
Content AI отвечала за извлечение и обработку информации из двухтомного издания «Летопись жизни и творчества Льва Николаевича Толстого» авторства литературоведа и личного секретаря писателя Н.Н. Гусева. Задача была нетривиальной. В отличие от 2014 года, когда тексты распознавались и переносились в электронный формат, сейчас, помимо этого, требовалось извлечь из оцифрованного материала различные данные. При этом издание представляет собой не художественное повествование, а справочно-информационный документ. В двухтомнике Гусев последовательно и детально, практически по дням, фиксирует события жизни Толстого с указанием дат, мест и добавлением авторских комментариев. Все эти многочисленные атрибуты нужно было отметить и выделить:
- Год (включая вариации: «1863», «в этом году»)
- Дата: (включая вариации: «Апрель», «последние числа мая», «условный символ месяца»)
- Начальная страница
- Конечная страница
- Событие
- Источник
- Комментарий
Извлеченные из двухтомника данные нужно было представить в виде таблицы, конвертируемой в XML. В дальнейшем эта информация легла в основу детальной базы данных событий из жизни Толстого.
Слово за технологиями
Проанализировав материал, технические эксперты Content AI пришли к выводу, что PDF-редактор, который использовался для оцифровки собраний сочинений Толстого, для этой задачи не подходит. Поэтому было решено использовать универсальную платформу для интеллектуальной обработки информации ContentCapture. В ее основе лежат самые современные технологии оптического распознавания символов (OCR) и обработки естественного языка (NLP), которые позволяют с высокой точностью извлекать из любых текстов нужную информацию и обрабатывать ее по определенному сценарию.
Вот как проходила работа:
На этапе подготовки наши инженеры разработали логику поиска и извлечения атрибутов. Чтобы система четко понимала, что перед ней именно та сущность – дата, событие, источник – которую требуется пометить или извлечь, необходимо дать ей максимально четкие ориентиры. Например, указать, что «событие» начинается с красной строки и сопровождается комментарием, который оформлен курсивом и смещен относительно основного текста. Такая логика разметки документа с учетом возможной вариативности представления данных называется гибким описанием. Чем больше приводится деталей и чем более они конкретны, тем точнее будет результат извлечения данных.
На этапе обработки почти 2000 отсканированных страниц двухтомника были загружены в ContentCapture для непосредственного извлечения атрибутов с деталями каждого события. В ряде случаев использовались скрипты автокоррекции и местозаполнители.
С их помощью удалось проанализировать структуру документа, разобрать описание событий на детали, восстановить пропущенные в тексте или представленные иносказательно данные, например, «в том же году».
Определенную трудность создавало наличие большого количества условных сокращений, требующих расшифровки, разнесение случаев, когда на одну дату приходится несколько абзацев основного текста, и трактовка событий, когда запись начинается на одной странице, а заканчивается на другой. Для этих ситуаций прорабатывались индивидуальные алгоритмы действий, которые позволили точно зафиксировать каждый факт и сопровождающий его контекст, ведь в работе над исторически значимым документом любая деталь имеет значение.
Больше чем просто текст
Результатом работы Content AI стал структурированный документ в формате XML, где каждый атрибут связан с дополнительными справочными материалами. На основе этого файла команда Tolstoy Digital разработала календарь, в котором в удобной форме можно изучать биографию писателя. У пользователей есть возможность искать нужную информацию, используя многочисленные фильтры: период времени, тип источника, упоминаемые произведения и персоны. Календарь опубликован на сайте проекта «Слово Толстого».
Еще один интерактивный раздел, где использованы оцифрованные данные двухтомника «Летопись жизни и творчества Л.Н. Толстого», — таймлайн. Он визуализирует самые значимые события биографии писателя в разбивке по категориям: частная, общественная, внутренняя жизнь, семья, литература.
Команда Tolstoy Digital планирует передать все собранные данные в Институт русского языка РАН для создания «Словаря языка Толстого». Проект «Слово Толстого» также будет пополняться новыми материалами, чтобы к 200-летию со дня рождения писателя в 2028 году представить самый полный цифровой архив его наследия.
Почему это важно
История сотрудничества Content AI и команды Tolstoy Digital — яркий пример того, как искусственный интеллект помогает сохранять и изучать культурное наследие. Наша платформа ContentCapture доказала, что даже самые сложные тексты можно не только оцифровать, но и сделать их частью интерактивной образовательной экосистемы.
С развитием технологий появляются все новые способы обработки и анализа информации. Это открывает большие возможности для работы с историческими источниками. И мы будем рады делиться инструментами и инновациями, которые позволят дать современному поколению доступ к культурному и историческому наследию в новых удобных форматах.