Парсинг адресов с ИИ — модель в открытом доступе
2024
ChatGPT и другие LLM (даже «Яндекс» и «Сбер») неплохо умеют понимать и сравнивать РФ-адреса, но когда нужно обработать большой объем (например, 150 млн адресов) — получается медленно и дорого.
Программисты выдумывают сложные велосипеды с регулярными выражениями и разделителями. Рано или поздно понимают, что это не такая простая задача, и подключают сервис DaData.
Я был уверен, что к 2024 году на Hugging Face уже существует небольшая трансформер-модель для NER под адреса. Так и есть — куча моделей, но ни одной нормальной для русского языка 😞
Пришлось сделать свою 🙂
Пользуйтесь и давайте фидбэк: https://huggingface.co/aidarmusin/address-ner-ru
Что модель делает
Строку адреса разбивает на регион, район, город, улицу, номер дома и т.д.
Это позволяет удобнее сравнивать адреса, привязывать их к ФИАС/ГАР
И делает это максимально эффективно, ведь это небольшая трансформер-модель, и она требует гораздо меньше вычислительных мощностей.
На чем обучалась
Всего лишь 5 тыс. размеченных адресов. Адреса подобраны максимально разнообразные. К тому же количество таких адресов можно легко расширить, дополнительно обучив модель на новых данных.
Можем поделиться датасетом (пишите).
Сравнение с DaData
Тем не менее, эту модель можно использовать для определения региона на уровне точности DaData.