• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Data Analysis in Python

2023/2024
Academic Year
RUS
Instruction in Russian
3
ECTS credits
Course type:
Compulsory course
When:
3 year, 1 module

Instructor

Программа дисциплины

Аннотация

Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Юриспруденция» и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Дисциплина реализуется с помощью онлайн-курса «Учебник по Анализу данных (Начальный уровень)» в SmartLMS (https://edu.hse.ru/course/view.php?id=136231).
Цель освоения дисциплины

Цель освоения дисциплины

  • Развитие и закрепление навыков программирования на языке Python.
  • Формирование и развитие навыков работы со специализированными библиотеками для обработки, визуализации и анализа данных (pandas, numpy, scipy, sklearn, plotly, matplotlib).
  • Развитие навыков работы с данными: сбор, обработка, визуализация, разведывательный анализ.
  • Освоение терминологии области машинного обучения и знакомство с базовыми алгоритмами
  • Развитие навыков постановки исследовательской задачи и тестирования гипотез с помощью количественных методов
  • Развитие навыков презентации полученных результатов (оформление отчета о проделанной работе и устная защита исследования)
Планируемые результаты обучения

Планируемые результаты обучения

  • Уверенно пользоваться языком Python для решения аналитических задач
  • Умение подсчитывать описательные статистики, оценивать распределения, интерпретировать корреляции
  • Загружать данные в pandas и работать с ними (фильтрация, агрегация, заполнение пропущенных значений)
  • Определять тип задачи машинного обучения, выбирать корректные модели для ее решения, осуществлять подбор параметров и выбирать лучшую модель
  • Проводить разведывательный анализ данных
  • Работать с сайтом соревнований по машинному обучению kaggle
  • Решать задачи машинного обучения от постановки исследовательского вопроса до интерпретации результатов
  • Решать простые задачи классификации, регрессии и кластеризации
  • Собирать и подготавливать данные для текстового анализа. Проводить стандартизацию текста. Решать задачи классификации и кластеризации для текстовых данных
  • Создавать интерактивные визуализации с помощью plotly
  • Умение выбирать корректные графики для визуализации данных, уметь кастомизировать их внешний вид, интерпретировать графики
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Python для анализа данных, алгоритмы
  • Библиотеки для работы с данными в Python
  • Визуализация данных
  • Машинное обучение
  • Текстовый анализ
Элементы контроля

Элементы контроля

  • неблокирующий КР в формате НЭ
    формат сдачи контрольного мероприятия зависит от формата проведения занятий (для онлайн-занятий – возможно использование прокторинга)
  • неблокирующий мини-тесты
    формат сдачи контрольного мероприятия зависит от формата проведения занятий (для онлайн-занятий – возможно использование прокторинга)
  • неблокирующий Проект
    формат сдачи контрольного мероприятия зависит от формата проведения занятий (для онлайн-занятий – возможно использование прокторинга)
Промежуточная аттестация

Промежуточная аттестация

  • 2023/2024 учебный год 1 модуль
    min(0.3 * мини-тесты в начале лекций + 0.4 * КР в формате НЭ + 0.3 * Проект, 8) В соответствии с п. 69 “Положения об организации промежуточной аттестации и текущего контроля успеваемости студентов” (ПОПАТКУСа) итоговая оценка студента за дисциплину-пререквизит (ДПР) к НЭ по АД не может быть больше 8 баллов. 9 или 10 за ДПР можно получить, сдав НЭ на 9 или 10 (см. раздел «Перезачет оценок» https://www.hse.ru/studyspravka/examsdataculture)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Бонцанини, М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python / М. Бонцанини , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2018. — 288 с. — ISBN 978-5-97060-574-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/108129 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Введение в статистическое обучение с примерами на языке R / Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани , перевод с английского С. Э. Мастицкого. — Москва : ДМК Пресс, 2017. — 456 с. — ISBN 978-5-97060-495-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/93580 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Маккинни, У. Python и анализ данных / У. Маккинни , перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • HEER, J., BOSTOCK, M., & OGIEVETSKY, V. (2010). A Tour Through the Visualization Zoo. Communications of the ACM, 53(6), 59–67. https://doi.org/10.1145/1743546.1743567