2024ChatGPT и другие LLM (даже «Яндекс» и «Сбер») неплохо умеют понимать и сравнивать РФ-адреса, но когда нужно обработать большой объем (например, 150 млн адресов) — получается медленно и дорого.Программисты выдумывают сложные велосипеды с регулярными выражениями и разделителями. Рано или поздно понимают, что это не такая простая задача, и подключают сервис DaData.Я был уверен, что к 2024 году на Hugging Face уже существует небольшая трансформер-модель для NER под адреса. Так и есть — куча моделей, но ни одной нормальной для русского языка 😞Пришлось сделать свою 🙂Пользуйтесь и давайте фидбэк: https://huggingface.co/aidarmusin/address-ner-ruЧто модель делаетСтроку адреса разбивает на регион, район, город, улицу, номер дома и т.д.Это позволяет удобнее сравнивать адреса, привязывать их к ФИАС/ГАРИ делает это максимально эффективно, ведь это небольшая трансформер-модель, и она требует гораздо меньше вычислительных мощностей.На чем обучаласьВсего лишь 5 тыс. размеченных адресов. Адреса подобраны максимально разнообразные. К тому же количество таких адресов можно легко расширить, дополнительно обучив модель на новых данных.Можем поделиться датасетом (пишите).Сравнение с DaDataЭто не имеет смысла, так как мы всего лишь парсим строку на части, а привязка к ФИАС/ГАР - это уже другая задача. Мы для этого сделали отдельную модель, но её пока в открытый доступ не выкладываем.Тем не менее, эту модель можно использовать для определения региона на уровне точности DaData.
😍
Комментарий недоступен