Нейросеть для автоматической расстановки знаков препинания и исправления опечаток

Нейросеть для автоматической расстановки знаков препинания и исправления опечаток

Приветствую всех. Меня зовут Александр, я автор проекта «Акулы нейронных сетей». Сегодня хочу рассказать вам об одном из сервисов сайта — «Мистере корректоре». Это нейросеть, которая автоматически расставляет знаки препинания и исправляет орфографические ошибки в тексте.

Примеры работы

«Мистер корректор» может расставлять запятые, точки, дефисы, тире и другие знаки препинания, а также исправлять строчное написание букв. Например, пользователь вводит такой текст:

вопрос о том зачем нужна грамотность обсуждается широко и пристрастно казалось бы сегодня когда даже компьютерная программа способна выправить не только орфографию но и смысл от среднестатистического россиянина не требуется знания бесчисленных и порой бессмысленных тонкостей родного правописания

Нейросеть исправляет его следующим образом:

Вопрос о том, зачем нужна грамотность, обсуждается широко и пристрастно. Казалось бы, сегодня, когда даже компьютерная программа способна выправить не только орфографию, но и смысл, от среднестатистического россиянина не требуется знания бесчисленных и порой бессмысленных тонкостей родного правописания.

А вот пример исправления орфографических ошибок и опечаток. Исходный текст выглядел так:

закии прпенания илементы пиисъмеости выпалняющее вспамагательные фуукц например р раздление и выдление мысловх отрезкав текстааа притлажений слофывсочетний слов чистей слова укозаниэ на граматические и лагичиские отнашения межжду словами на камунекативныый тип притложения его емоцеональную акраску законнченось

Исправленный:

Знаки препинания — элементы письменности, выполняющие вспомогательные функции. Например, разделение и выделение смысловых отрезков текста, выделение предложений, словосочетаний, слов и частей слова. Указание на грамматические и логические отношения между словами, на коммуникативный тип предложения, его эмоциональную окраску, законченность.

Процесс создания

Необходимость в таком инструменте у меня возникла во время расшифровки большого количества аудиофайлов. Транскрибацию я делал через нейросеть, которая выдавала сырой текст без знаков препинания, ещё и со множеством ошибок. Чтобы облегчить процесс редактуры, я решил обучить свою нейронку.

В качестве обучающих данных послужили тексты, в который вероятность встретить пунктуационные и орфографические ошибки минимальна: художественная и научная литература, новости, википедия. Всего датасет включал более 2 млн строк.

За основу нейросети была взята seq2seq модель MBart. Несмотря на то, что изначально она разрабатывалась для машинного перевода, модель, на мой взгляд, показывает хорошие результаты для любой задачи «текст в текст».

Как воспользоваться нейросетью?

«Мистер корректор» доступен абсолютно бесплатно. Однако есть лимиты: 5 текстов в час, длина — не более 1000 символов с пробелами. По запросу — доступ к API и увеличение лимитов.

Конечно, профессионального корректора в лице человека эта программа вряд ли заменит, однако мне она сэкономила уйму времени и сил. Надеюсь, этот инструмент пригодится и вам!

75
64 комментария