• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Основы анализа данных

2022/2023
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 3 модуль

Преподаватели

Программа дисциплины

Аннотация

Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Экономика» и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Также будут рассмотрены темы, связанные с основами машинного обучения. Практические занятия по курсу проводятся на языке программирования R. Дисциплина реализуется с помощью онлайн-курса «Статистика для анализа данных» (https://edu.hse.ru/course/view.php?id=136232), а также с применением интерактивных занятий на языке R на платформе DataCamp (www.datacamp.com).
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство c языком программирования R
  • Умение импортировать данные и проводить базовую предобработку данных для дальнейшего анализа в языке программирование R
  • Знать и применять основные методы базового анализа данных, понимать применимость и ограничение этих методов
Планируемые результаты обучения

Планируемые результаты обучения

  • ● Корректно открывать табличные данные различных форматов, работать с ними.
  • ● Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
  • Понимать и корректно использовать основные статистические понятия
  • Фильтровать данные по нескольким условиям
  • Вычислять релевантные описательные статистики и интерпретировать полученные результаты
  • Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой
  • Уметь реализовывать все шаги проверки статистических гипотез
  • Применять параметрические статистические критерии для проверки гипотез
  • Применять непараметрические статистические критерии для проверки гипотез
  • Создавать интерактивные визуализации
  • Использовать R в применении к анализу данных
  • Сортировать данные
  • Уметь применять функции пакета dplyr на языке программирования R
  • Уметь идентифицировать типы данных
  • Уметь строить гистограмму и полигон, различать необходимость их применения
  • Переводить значения признака в z-оценки
  • Обрабатывать пропущенные значения и выбросы
  • Строить уравнение линейной регрессии с использованием метода наименьших квадратов
  • Оценивать качество модели линейной регрессии с помощью релевантных метрик
  • Оценивать качество модели логистической регрессии с помощью релевантных метрик
  • Строить модель логит, интерпретировать коэффициенты
  • Решать задачу классификации с использованием KNN
  • Оценивать качество модели классификации с помощью релевантных метрик
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в инструменты и Базовые манипуляции с данными
  • Типы данных и Описательные статистики
  • Генеральная совокупность и выборка. Частотные таблицы и распределения
  • Z-оценка. Выбросы и Корреляция
  • Визуализация
  • Введение в тестирование гипотез. Параметрические и непараметрические критерии.
  • Линейная и логистическая регрессия
  • Введение в машинное обучение
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
    Эзамен представляет собой 60-минутную письменную работу, которая включает в себя (1) тестовые задания открытого типа; (2) тестовые задания закрытого типа; (3) интерпретация результатов работы алгоритма на языке программирования R
  • неблокирующий Микроконтроль
    Оценка за микроконтроли рассчитывается как среднее арифмитеческое отдельных микроконтролей, всего из будет проведено около 8-10. Обычно микроконтроль проводится в начале семинара или лекции в течение 5-7 минут, включает в себя вопросы по пройденному материалу
  • неблокирующий Самостоятельная работа
    Студентам предлагаются к прохождению обязательные курсы и дополнительные курсы на площадке DataCamp
  • неблокирующий Проект
    Проект представляет с собой расчетную работу студентов на базе данных, выбранной студентами. Проект имеет жесткую структуру и ограниченное количество инструментов, которые могут быть применимы. Проект выполняется в группах не более 2-3х человек.
  • неблокирующий Отчеты
    По итогам части семинаров студенты оформляют отчет о проделанной работе. Оценка за отчеты составляет среднее арифметическое всех отчетов
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 3 модуль
    0.15 * Микроконтроль + 0.4 * Экзамен + 0.15 * Отчеты + 0.1 * Самостоятельная работа + 0.2 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Alain Zuur, Elena N. Ieno, & Erik Meesters. (2009). A Beginner’s Guide to R. Springer.
  • Frederick J Gravetter, Larry B. Wallnau, Lori-Ann B. Forzano, & James E. Witnauer. (2020). Essentials of Statistics for the Behavioral Sciences, Edition 10. Cengage Learning.
  • Прикладная статистика в задачах и упражнениях : учебник, Айвазян С.А., Мхитарян В.С., 2001

Рекомендуемая дополнительная литература

  • Gareth James, Daniela Witten, Trevor Hastie, & Robert Tibshirani. (2013). An Introduction to Statistical Learning : With Applications in R. Springer.
  • Jeffrey M. Wooldridge. (2019). Introductory Econometrics: A Modern Approach, Edition 7. Cengage Learning.
  • Newbold, P., Carlson, W. L., & Thorne, B. (2013). Statistics for Business and Economics: Global Edition (Vol. Eight edition). Boston, Massachusetts: Pearson Education. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1417883
  • Прикладная статистика. Основы эконометрики. Т.1: Теория вероятностей и прикладная статистика, Айвазян, С. А., 2001