• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data analysis technologies in Internet

2019/2020
Academic Year
RUS
Instruction in Russian
6
ECTS credits
Delivered at:
Department of Information Technologies in Business (Faculty of Economics, Management, and Business Informatics)
Course type:
Elective course
When:
4 year, 2, 3 module

Instructor

Программа дисциплины

Аннотация

Настоящая программа учебной дисциплины устанавливает требования к образовательным результатам и результатам обучения студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих дисциплину «Технологии анализа данных в Internet», учебных ассистентов и студентов направления подготовки 38.04.05 Бизнес-информатика, обучающихся по образовательной программе «Бизнес информатика».
Цель освоения дисциплины

Цель освоения дисциплины

  • Развитие у студентов компетенций проектирования и конструирования программного обеспечения с использованием современных языков, технологий и инструментальных средств разработки программного обеспечения
Результаты освоения дисциплины

Результаты освоения дисциплины

  • Студент способен применять технологию регулярных выражений для обработки текстов
  • Студент способен использовать форматы XML и JSON для хранения и обработки данных
  • Студент способен из извлекать информацию из веб-сайтов
  • Студент способен из извлекать информацию из социальных сетей
  • Студент способен использовать информационно-поисковые тезаурусы и онтологии при обработке информации
  • Студент способен использовать технологии семантической аннотации при обработке текста
  • Студент знает и способен использовать технологии обработки естественного языка
  • Студент способен из извлекать информацию с использованием Web API
  • Студент знает и способен использовать т векторная модель слов для обработки естественного языка
  • Студент имеет представление об основных тенденциях развития интернет-технологий
  • Студент знает и способен использовать технологии Semantic Web
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 1. Регулярные выражения
    Основы синтаксиса. Классы символов. Диапазоны. Наборы. Кванторы повторений. Скобочные группы. Именованные группы. Ссылки.
  • Тема 2. Обработка данных в формате XML и JSON.
    XML расширяемый язык разметки. Синтаксис и семантика языка. Структура XML документа. Корректно сформированных (well formed) и валидные XML документы. Пространства имен. Объектная модель документа (DOM). Язык XPath. Синтаксис и функции XPath. Поиск и извлечения блоков с помощью XPath. Технологии DTD и XSD. Использование XSD для проверки корректности (валидации) XML-документов. Чтение и создание XSD-схемы. Описания типов, элементов и атрибутов. Описание сложных типов данных. Средства создания и работы со схемами. XSLT как средство преобразований XML. Программные средства преобразований XSLT. Шаблоны и шаблонные правила. Создание узлов различных типов. Управляющие конструкции. Сортировка значений.
  • Тема 3. Скрапинг веб-сайтов
    Библиотека BeautifulSoup. Краулинг Краулинг с помощью Scrapy. Библиотека requests. Отправка формы. Работа с элементами управления: радиокнопки, флажки и другие элементы ввода данных. Отправка файлов и изображений. Работа с логинами и cookies. Базовая HTTP-аутентификация. Скрапинг JavaScript-кода. Ajax и динамический HTML. Выполнение JavaScript в Python с помощью библиотеки Selenium. Извлечение CAPTCHA и отправка результатов распознавания.
  • Тема 4. Работа с Web API
    Как работают API. Общепринятые соглашения. Методы. Аутентификация. Ответы. Вызовы API. Echo Nest. Google API.
  • Тема 5. Извлечение данных из социальных сетей
    Как работают API. Общепринятые соглашения. Методы. Аутентификация. Ответы. Вызовы API. Echo Nest. Google API.
  • Тема 6. Информационно-поисковые тезаурусы и онтологии
    Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов. Основные принципы разработки, создания и использования традиционных информационно-поисковых тезаурусов. Примеры тезаурусов. Типы онтологий: верхнего уровня, предметных областей, прикладных онтологий. Лексические онтологии. Примеры онтологий. Онтологии верхнего уровня: отличительные черты, решаемые задачи. Онтологии и классификация. Пример онтологии ассортимента товаров интернет магазина.
  • Тема 7. Семантическая аннотация
    Понятие семантического (концептуального) аннотирования (разметки). Виды аннотаций. Методы семантического аннотирования документов. Аннотации в системе GATE. Lancaster USAS Semantic Tagger Framework. Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Тезаурус для автоматического концептуального индексирования как ресурс для решения информационно-поисковых задач. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования.
  • Тема 8. Основные понятия обработки ЕЯ
    Морфологический анализ (МА). Синтаксический анализ (СИА): основные понятия. Обобщенный алгоритм синтаксического анализа. Семантический анализ (СЕА).
  • Тема 9. Библиотеки обработки ЕЯ
    Морфологический анализатор pymorphy2. Морфологический анализ. Работа с тегами. Склонение слов. Постановка слов в начальную форму. Согласование слов с числительными.
  • Тема 10. Векторная модель слов
    Модели представления текста. Частотные характеристики текста. Векторно-пространственная модель документа. Библиотеки Python для обработки естественного языка: NLTK, Gensim, word2vec. Модели CBOW и Skip-gram в word2vec - Вычисление семантической близости в word2vec - Использование библиотеки word2vec для кластеризации
  • Тема 11. Основные тенденции развития интернет-технологий
    Web 1.0, Web 2.0, Web 3.0, Web 4.0. Новые объекты передачи. Киберугрозы, кибероружие и кибервойны. Изменения рынка труда и сферы образования. Новый статус человека в Интернете. Роботизация общества.
  • Тема 12. Технологии Semantic Web
    Описание ресурсов на языке RDF. Язык описания онтологий OWL. Стандартны представления метаданных. Технология FOAF. Интеллектуальные агенты и мультиагентные технологии. Алгоритмы обработки данных в Semantic Web
Элементы контроля

Элементы контроля

  • Лабораторная работа 1 (неблокирующий)
  • Лабораторная работа 2 (неблокирующий)
  • Лабораторная работа 3 (неблокирующий)
  • Лабораторная работа 4 (неблокирующий)
  • Экзамен (неблокирующий)
  • Прохождение online-курсов (неблокирующий)
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.15 * Лабораторная работа 1 + 0.15 * Лабораторная работа 2 + 0.15 * Лабораторная работа 3 + 0.15 * Лабораторная работа 4 + 0.1 * Прохождение online-курсов + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Федоров Д. Ю.-ПРОГРАММИРОВАНИЕ НА ЯЗЫКЕ ВЫСОКОГО УРОВНЯ PYTHON 2-е изд., пер. и доп. Учебное пособие для прикладного бакалавриата-М.:Издательство Юрайт,2019-161-Бакалавр. Прикладной курс-978-5-534-10971-9: -Текст электронный // ЭБС Юрайт - https://biblio-online.ru/book/programmirovanie-na-yazyke-vysokogo-urovnya-python-437489

Рекомендуемая дополнительная литература

  • Антамошкин, О. А. Программная инженерия. Теория и практика [Электронный ресурс] : учебник / О. А. Антамошкин. - Красноярск: Сиб. Федер. ун-т, 2012. - 247 с. - ISBN 978-5-7638-2511-4.
  • Сысолетин Е. Г., Ростунцев С. Д. ; под науч. ред. Доросинского Л.Г.-РАЗРАБОТКА ИНТЕРНЕТ-ПРИЛОЖЕНИЙ. Учебное пособие для вузов-М.:Издательство Юрайт,2019-90-Университеты России-978-5-9916-9975-4: -Текст электронный // ЭБС Юрайт - https://biblio-online.ru/book/razrabotka-internet-prilozheniy-438148