Парсинг адресов с ИИ — модель в открытом доступе

ChatGPT и другие LLM (даже «Яндекс» и «Сбер») неплохо умеют понимать и сравнивать РФ-адреса, но когда нужно обработать большой объем (например, 150 млн адресов) — получается медленно и дорого.

Программисты выдумывают сложные велосипеды с регулярными выражениями и разделителями. Рано или поздно понимают, что это не такая простая задача, и подключают сервис DaData.

Я был уверен, что к 2024 году на Hugging Face уже существует небольшая трансформер-модель для NER под адреса. Так и есть — куча моделей, но ни одной нормальной для русского языка 😞

Пришлось сделать свою 🙂

Пользуйтесь и давайте фидбэк: https://huggingface.co/aidarmusin/address-ner-ru

Строку адреса разбивает на регион, район, город, улицу, номер дома и т.д.

Это позволяет удобнее сравнивать адреса, привязывать их к ФИАС/ГАР

И делает это максимально эффективно, ведь это небольшая трансформер-модель, и она требует гораздо меньше вычислительных мощностей.

Всего лишь 5 тыс. размеченных адресов. Адреса подобраны максимально разнообразные. К тому же количество таких адресов можно легко расширить, дополнительно обучив модель на новых данных.

Можем поделиться датасетом (пишите).

Это не имеет смысла, так как мы всего лишь парсим строку на части, а привязка к ФИАС/ГАР - это уже другая задача. Мы для этого сделали отдельную модель, но её пока в открытый доступ не выкладываем.

Тем не менее, эту модель можно использовать для определения региона на уровне точности DaData.

Парсинг адресов с ИИ — модель в открытом доступе

Парсинг адресов с ИИ — модель в открытом доступе

2024

Что модель делает

На чем обучалась

Сравнение с DaData