• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Анализ NLP методами искусственного интеллекта

2025/2026
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты
Статус:
Курс обязательный
Когда читается:
4-й курс, 1 модуль

Преподаватели

Программа дисциплины

Аннотация

Курс «Анализ NLP методами искусственного интеллекта» представляет собой практико-ориентированную программу, сфокусированную на решении прикладных задач обработки естественного языка (NLP) с использованием передовых AI-технологий. Ключевая особенность курса — подход «AI-first», при котором большие языковые модели (LLM) выступают не как объект изучения, а как основной рабочий инструмент для генерации кода, анализа данных и создания интеллектуальных систем. Дисциплина ориентирована на формирование у студентов компетенций, востребованных в сферах digital-маркетинга, бизнес-аналитики и продуктового менеджмента, где требуется быстро извлекать ценные инсайты из больших объемов текстовой информации.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать у студентов методологию «AI-first»
  • Научить студентов решать полный спектр прикладных NLP-задач
  • Обеспечить понимание фундаментальных принципов семантического анализа текста
  • Развить навыки проектирования и создания конечных data-продуктов
Планируемые результаты обучения

Планируемые результаты обучения

  • Умение формулировать промпты для LLM с целью генерации кода для автоматического сбора данных из веб-источников (парсинг) и через API
  • Владение методами очистки и структурирования «сырых» текстовых данных для подготовки унифицированных датасетов
  • Способность решать задачи классификации текстов и анализа тональности, используя как готовые специализированные библиотеки, так и прямые запросы к LLM для оценки текстов по заданным категориям.
  • Умение применять методы извлечения именованных сущностей (NER) и тематического моделирования для выявления ключевых объектов, персон и скрытых тем в больших массивах текстовых данных.
  • Владение навыками преобразования текстовых данных в векторные представления (эмбеддинги) с помощью современных трансформерных моделей для последующего математического анализа.
  • Умение применять векторные операции для решения прикладных задач, таких как семантический поиск по смыслу, кластеризация текстов и обнаружение дубликатов.
  • Понимание архитектуры и принципов работы вопросно-ответных систем, построенных по технологии Retrieval-Augmented Generation (RAG).
  • Способность проектировать и программно реализовывать end-to-end NLP-системы, объединяющие семантический поиск по базе знаний с генеративными возможностями LLM для создания ответа.
  • Владение навыком интеграции различных NLP-компонентов (парсер, анализатор, векторизатор, LLM) в единый работающий data-продукт.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Раздел 1. Парсинг и обработка текстовых данных
  • Раздел 2. Извлечение смысла
  • Раздел 3. Математика языка и семантический поиск
  • Раздел 4. Создание интеллектуальных ассистентов (RAG)
Элементы контроля

Элементы контроля

  • неблокирующий Семинарская работа
  • неблокирующий Составление датасета
  • неблокирующий Анализ датасета
  • неблокирующий Итоговый проект
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 1st module
    0.15 * Анализ датасета + 0.4 * Итоговый проект + 0.3 * Семинарская работа + 0.15 * Составление датасета
Список литературы

Список литературы

Рекомендуемая основная литература

  • Python для data science, Васильев, Ю., 2023
  • Seppe vanden Broucke, & Bart Baesens. (2018). Practical Web Scraping for Data Science : Best Practices and Examples with Python. Apress.
  • Обработка естественного языка Python и spaCy на практике, Васильев, Ю., 2021

Рекомендуемая дополнительная литература

  • Introducing semantics, Riemer, N., 2010

Авторы

  • Маткин Никита Андреевич
  • Борисова Елена Феликсовна
  • Паршаков Петр Андреевич