Сейчас этот ассистент помогает нам онбордить новых сотрудников, разгружает сисадмина и отвечает на большинство вопросов о корпоративных процессах внутри компании. И всё это сделали за две недели.
Интересна стратегия разбивки документов на чанки. Как били? По границам абазацев? Делали дополнительный контекст для чанков? А векторный поиск усиливали традиционным bm25? Реранкинг результатов делали? Рефрэйз / обработку запроса пользователя?
Хочу признаться, что ваши вопросы оказались интереснее всей статьи.
А можете пояснить суть реранкинга и рефрейза? Что это и зачем нужно