• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Основы анализа данных в R

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 3 модуль

Преподаватели

Программа дисциплины

Аннотация

Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Экономика» и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Также будут рассмотрены темы, связанные с основами машинного обучения. Практические занятия по курсу проводятся на языке программирования R. Дисциплина реализуется с помощью онлайн-курса «Статистика для анализа данных» (https://edu.hse.ru/course/view.php?id=136232), а также с применением интерактивных занятий на языке R на платформе DataCamp (www.datacamp.com).
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство c языком программирования R
  • Умение импортировать данные и проводить базовую предобработку данных для дальнейшего анализа в языке программирование R
  • Знать и применять основные методы базового анализа данных, понимать применимость и ограничение этих методов
Планируемые результаты обучения

Планируемые результаты обучения

  • ● Корректно открывать табличные данные различных форматов, работать с ними.
  • ● Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
  • Понимать и корректно использовать основные статистические понятия
  • Фильтровать данные по нескольким условиям
  • Вычислять релевантные описательные статистики и интерпретировать полученные результаты
  • Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой
  • Уметь реализовывать все шаги проверки статистических гипотез
  • Применять параметрические статистические критерии для проверки гипотез
  • Применять непараметрические статистические критерии для проверки гипотез
  • Создавать интерактивные визуализации
  • Использовать R в применении к анализу данных
  • Сортировать данные
  • Уметь применять функции пакета dplyr на языке программирования R
  • Уметь идентифицировать типы данных
  • Уметь строить гистограмму и полигон, различать необходимость их применения
  • Переводить значения признака в z-оценки
  • Обрабатывать пропущенные значения и выбросы
  • Строить уравнение линейной регрессии с использованием метода наименьших квадратов
  • Оценивать качество модели линейной регрессии с помощью релевантных метрик
  • Оценивать качество модели логистической регрессии с помощью релевантных метрик
  • Строить модель логит, интерпретировать коэффициенты
  • Решать задачу классификации с использованием KNN
  • Оценивать качество модели классификации с помощью релевантных метрик
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы работы в R
  • Тестирование статистических гипотез
  • Метод главных компонент и кластерный анализ
Элементы контроля

Элементы контроля

  • неблокирующий Проект
  • неблокирующий Микроконтроли
    Оценка за микроконтроли рассчитывается как среднее арифмитеческое отдельных микроконтролей, всего из будет проведено 5-6. Обычно микроконтроль проводится в начале семинара в течение 5-7 минут, включает в себя вопросы по пройденному материалу.
  • неблокирующий Самостоятельная работа (DataCamp)
    Студентам предлагаются к прохождению обязательные курсы и дополнительные курсы на площадке DataCamp
  • неблокирующий Отчеты
    По итогам части семинаров студенты оформляют отчет о проделанной работе. Оценка за отчеты составляет среднее арифметическое всех отчетов.
  • неблокирующий Экзамен
    Эзамен представляет собой 60-минутную письменную работу, которая включает в себя (1) тестовые задания открытого типа; (2) тестовые задания закрытого типа; (3) интерпретация результатов работы алгоритма на языке программирования R
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль
    0.15 * Отчеты + 0.2 * Проект + 0.15 * Микроконтроли + 0.4 * Экзамен + 0.1 * Самостоятельная работа (DataCamp)

Авторы

  • Шенкман Евгения Андреевна