Бесплатное обучение профессии Python лингвист-разработчик

Благодаря государставенной поддержке и проекту OPEN-AI.RU

Открыт свободный доступ, без регистрации и оплаты, ко всем онлайн лекциям, поддержке менторов, аттестациям и дипломам МФТИ, РАНХиГС, РУДН, МГУТУ, ТЕХНОГРАД, ТГУ, ВШСДТ и помощи в трудоустройстве.

В чем польза курса?

- развивайте навыки разработки диалоговых систем

- решайте задачи машинной обработки текста

- используйте получаемые знания в бизнес кейсах

- воспользуйтесь поддержкой в поиске работы

16 мая стартовал первый поток. Спешите принять участие!

Важно: для обучения требуется Telegram

Курс состоит из трех модулей:

1. Подготовительный - создание диалоговых систем на low-code платформе

2. Базовый - создание AI чат-ботов, ботов для входящих и исходящих звонков, виртуальных ассистентов и навыков для них. Используя WEB-среду для разработки на легком и читаемом коде DSL с возможностью расширения на JavaScript.

3. Python - создание собственных решений на Python.

В первый модуль включены:

Семь лекций для подготовки и создания ботов на low-code платформе (сборка чат-ботов, как из кубиков Лего)

  • Бесплатные решения и платформы для создания чат-ботов. Интент (намерение пользователя) - как ключевой элемент диалоговой системы. Чат-бот “Котопёс” - может ли бот понимать то, чему вы его не учили? Вы создадите своего первого чат-бота понимающего сообщения пользователей. Как опубликовать чат-бота?
  • Лемматизация, синонимы, омонимы - как лингвистические задачи. Анализ текста другие лингвистические задачи. Как первые диалоговые системы понимали сообщения пользователей? Сможет ли ваш второй бот отличить яблочки от яблочного сока?
  • Особенности целеориентированных чат-ботов? Сможет ли ваш третий чат-бот помнить своих пользователей и быть вежливым? Что такое переменные? Что значит User Story? Как написать и зачем нужен сценарий чат-бота?
  • Сможет ли ваш четвертый чат-бот отличать городские телефоны от мобильных? Синтаксис регулярных выражений и инструменты для работы с ними.
  • Сможет ли ваш пятый чат-бот стать умным справочником? Синонимы и проблема омонимии как лингвистическая задача.
  • Сможет ли ваш шестой чат-бот вести нечестную игру? Как научить чат-бота считать? Что такое вероятность? Существует ли формула вероятности наступления тех или иных событий?
  • Сможет ли ваш седьмой чат-бот предсказывать погоду? Что такое API? Инструменты работы с HTTP запросами. Как работать с документацией?

Темы лекций второго модуля:

1. От идеи до деплоя: цикл разработки типового программного обеспечения. Фазы создания программного обеспечения. Анализ требований, проектирование, кодирование (программирование), тестирование и отладка, эксплуатация и сопровождение. Этапы разработки на примере диалоговой системы. Разбор типовых ошибок.

2. Управление требованиями: создание технической документации, установка метрик качества. Этап сбора требований и создания технической документации. Метрики качества при разработке документации. Техническая документация диалоговой системы. Методы составления документации проекта. Возможные ошибки при составлении документации. Создание технической документации диалоговой системы. Анализ и установка возможных метрик качества.

3. Контрактное программирование: разработка дизайна решения. Прототипирование диалоговых систем. Методы решения проблем. MVP – минимально жизнеспособный продукт без кода и разумное распределение ресурсов. Возможные инструменты при прототипировании дизайна решения, их плюсы и минусы.

4. Создание лингвистического компонента чат-бота (паттерны, сущности, словари). Базовые лингвистические понятия. Словообразование. Морфемы и обработка естественного языка. Отличия лингвистических подходов исходя из целей бизнеса. Сравнительная характеристика лингвистических компонентов на примере диалоговой системы.

5. Интерфейсы и системные интеграции: внешние сервисы и http запросы. Типы HTTP-запросов и философия REST. Инструменты для отладки http запросов.

6. Предсказуемый деплой: вариативность каналов связи. Особенности каналов связи для проектирования диалоговых систем. Методы реализации диалоговой системы одновременно для нескольких каналов.

7. Введение в тестирование диалоговых систем. Тест-дизайн Работа с проектной документацией, создание сценария тестирования диалоговой системы. Реализовать интеграцию диалоговой системы с продвинутыми инструментами анализа диалоговых систем в текущих проектах.

8. Оценка и аудит диалоговых продуктов. Анализ эффективности диалоговой системы. Обзор продуктов для анализа, ключевые показатели эффективности диалоговых систем. Реализовать интеграцию диалоговой системы с продвинутыми инструментами анализа диалоговых систем в текущих проектах.

9. Задачи классификации намерений и тематик, извлечение сущностей в диалоговых системах. Интенты – намерение пользователя. Извлечение смыслов NLU – основы понимания естественного языка. Системные и пользовательские сущности для NLU - понимания естественного языка виртуальным ассистентом. Извлечь намерение пользователей из представленных текстовых корпусов.

10. Работа с опечатками и распознавание речи как неотъемлемая часть работы разговорного интерфейса. Очистка данных, Работа с опечатками. Методы распознавания естественной речи. Предварительная очистка данных на предоставленном датасете. Разбор инструментов для NLU.

11. Отличия реализации голосовых ассистентов от текстовых. Сложности при создании голосового ассистента. ASR - автоматическое распознавание речи, tts - синтез речи, инструменты для синтеза речи. Плюсы и минусы голосового и текстового ассистента. Дополнительные этапы при проектировании и разработке голосовых диалоговых систем.

12. Предварительная обработка текстовых данных: токенизация, стоп-слова, нормализация (стемминг/лемматизация) в контексте чат-бота. Предварительная обработка данных: токенизация, удаление стоп-слов. Выбор способа нормализации. Стеммизация — процесс приведения слова к его корню/основе. Лемматизация. N-граммы. Инструменты для предварительной обработки данных и их использование на примере готового датасета

13. Классификация запросов пользователя в диалоге: ключевые слова, индекс жаккарда, алгоритм шинглов, расстояние левенштейна. Основы семантического поиска. Традиционный поиск: сходство Жаккара, алгоритм шинглов, расстояние Левенштейна. Регулярные выражения. Реализация семантических классификаторов для чат-бота. Нахождение процента совпадения одной строки к другой.

14. Классификация запросов пользователя в диалоге, векторное сходство: TF-IDF, BM25, word2vec/doc2vec, BERT, USE. Представление строки векторами из одного общего для всей коллекции векторного пространства. Основы векторного сходства: TF-IDF, BM25, word2vec/doc2vec, BERT. Реализация векторных классификаторов для чат-бота Нахождение процента совпадения одной строки к другой.

15. Использование классификаторов машинного обучения для распознавания намерений в диалоговых системах (Инструменты машинного обучения для задач классификации). Значение данных для машинного обучения. Методы работы с данными для машинного обучения. Проблема диаризации при подготовке голосовых файлов. Сырые данные, корпуса текстов и размеченная выборка для машинного обучения.

Темы лекций третьего модуля:

1. Создание диалоговой системы на Python. Обзор библиотек для различных бизнес-задач. Типы бизнес-задач и инструменты для их решений. Готовые библиотеки для Предварительной обработки текста. Векторного анализа и фреймворки для популярных входящих каналов связи. Реализация MVP проекта используя готовые библиотеки и фреймфорки.

2. Проработка сценария диалогового ассистента и воспроизведение контекста диалога. Основы Python для создания диалоговых систем. Значения и переменные, функции, условные обозначения, циклы, условия. Pep 8. Доработка существующих проектов. Расширение функционала.

3. Создание собственной библиотеки для группы каналов связи. Основы создания собственной библиотеки. Пакет Pathology. Тестирование пакета патологии. Путь Python. Упаковка и раздача библиотеки Python. Создание собственной библиотеки.

4. Классификации баз данных, шаблонные решения при разработке текстового бота. Основные методы хранения данных в Python. Их преимущества и недостатки в контексте определенной бизнес-задачи и технических ограничений. Выбор и реализация оптимального способа хранения данных для готового проекта.

5. Обучение различных классификаторов для распознавания намерений и выделения сущностей. Способы разработки датасетов для различных задач. Готовые библиотеки для нахождения синонимов. Выбор инструмента с готовым к обучению классификатором. Предварительная обработка данных из датасета, обучение классификатора и интеграция с существующим проектом.

6. Вывод готового решения на облачный сервер. Деплой бота на облачный сервер. Инструменты для мониторинга состояния бота. Реализация инструмента для мониторинга работоспособности бота на продуктовом сервере.

Для получения дипломов, удостоверений и сертификатов государственного образца за счет грантовой поддержки Министерства труда и социальной защиты Российской Федерации нужно соответствовать требованиям соответствующих программ и пройти аттестацию в выбранном учебном заведении.

11
5 комментариев

Комментарий недоступен

1

В чате тг нет информации о курсе

Прошу прощения, все есть

2

В самом конце статьи)) Спасибо, сейчас добавлю еще одну ссылку

Спасибо огромное за труд написать два комментария. Мне кажется над навигацией и доступностью информации нам нужно поработать. Буду признателен за конструктивную критику и обратную связь