We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Introduction to Data Analysis

2022/2023
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Course type:
Compulsory course
When:
2 year, 3 module

Instructors

Программа дисциплины

Аннотация

Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Экономика» и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Также будут рассмотрены темы, связанные с основами машинного обучения. Практические занятия по курсу проводятся на языке программирования R. Дисциплина реализуется с помощью онлайн-курса «Статистика для анализа данных» (https://edu.hse.ru/course/view.php?id=136232), а также с применением интерактивных занятий на языке R на платформе DataCamp (www.datacamp.com).
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство c языком программирования R
  • Умение импортировать данные и проводить базовую предобработку данных для дальнейшего анализа в языке программирование R
  • Знать и применять основные методы базового анализа данных, понимать применимость и ограничение этих методов
Планируемые результаты обучения

Планируемые результаты обучения

  • ● Корректно открывать табличные данные различных форматов, работать с ними.
  • ● Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
  • Понимать и корректно использовать основные статистические понятия
  • Фильтровать данные по нескольким условиям
  • Вычислять релевантные описательные статистики и интерпретировать полученные результаты
  • Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой
  • Уметь реализовывать все шаги проверки статистических гипотез
  • Применять параметрические статистические критерии для проверки гипотез
  • Применять непараметрические статистические критерии для проверки гипотез
  • Создавать интерактивные визуализации
  • Использовать R в применении к анализу данных
  • Сортировать данные
  • Уметь применять функции пакета dplyr на языке программирования R
  • Уметь идентифицировать типы данных
  • Уметь строить гистограмму и полигон, различать необходимость их применения
  • Переводить значения признака в z-оценки
  • Обрабатывать пропущенные значения и выбросы
  • Строить уравнение линейной регрессии с использованием метода наименьших квадратов
  • Оценивать качество модели линейной регрессии с помощью релевантных метрик
  • Оценивать качество модели логистической регрессии с помощью релевантных метрик
  • Строить модель логит, интерпретировать коэффициенты
  • Решать задачу классификации с использованием KNN
  • Оценивать качество модели классификации с помощью релевантных метрик
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в инструменты и Базовые манипуляции с данными
  • Типы данных и Описательные статистики
  • Генеральная совокупность и выборка. Частотные таблицы и распределения
  • Z-оценка. Выбросы и Корреляция
  • Визуализация
  • Введение в тестирование гипотез. Параметрические и непараметрические критерии.
  • Линейная и логистическая регрессия
  • Введение в машинное обучение
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
    Эзамен представляет собой 60-минутную письменную работу, которая включает в себя (1) тестовые задания открытого типа; (2) тестовые задания закрытого типа; (3) интерпретация результатов работы алгоритма на языке программирования R
  • неблокирующий Микроконтроль
    Оценка за микроконтроли рассчитывается как среднее арифмитеческое отдельных микроконтролей, всего из будет проведено около 8-10. Обычно микроконтроль проводится в начале семинара или лекции в течение 5-7 минут, включает в себя вопросы по пройденному материалу
  • неблокирующий Самостоятельная работа
    Студентам предлагаются к прохождению обязательные курсы и дополнительные курсы на площадке DataCamp
  • неблокирующий Проект
    Проект представляет с собой расчетную работу студентов на базе данных, выбранной студентами. Проект имеет жесткую структуру и ограниченное количество инструментов, которые могут быть применимы. Проект выполняется в группах не более 2-3х человек.
  • неблокирующий Отчеты
    По итогам части семинаров студенты оформляют отчет о проделанной работе. Оценка за отчеты составляет среднее арифметическое всех отчетов
Промежуточная аттестация

Промежуточная аттестация

  • 2022/2023 учебный год 3 модуль
    0.15 * Микроконтроль + 0.4 * Экзамен + 0.15 * Отчеты + 0.1 * Самостоятельная работа + 0.2 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Alain Zuur, Elena N. Ieno, & Erik Meesters. (2009). A Beginner’s Guide to R. Springer.
  • Frederick J Gravetter, Larry B. Wallnau, Lori-Ann B. Forzano, & James E. Witnauer. (2020). Essentials of Statistics for the Behavioral Sciences, Edition 10. Cengage Learning.
  • Прикладная статистика в задачах и упражнениях : учебник, Айвазян С.А., Мхитарян В.С., 2001

Рекомендуемая дополнительная литература

  • Gareth James, Daniela Witten, Trevor Hastie, & Robert Tibshirani. (2013). An Introduction to Statistical Learning : With Applications in R. Springer.
  • Jeffrey M. Wooldridge. (2019). Introductory Econometrics: A Modern Approach, Edition 7. Cengage Learning.
  • Newbold, P., Carlson, W. L., & Thorne, B. (2013). Statistics for Business and Economics: Global Edition (Vol. Eight edition). Boston, Massachusetts: Pearson Education. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1417883
  • Прикладная статистика. Основы эконометрики. Т.1: Теория вероятностей и прикладная статистика, Айвазян, С. А., 2001

Авторы

  • Шенкман Евгения Андреевна