• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Основы анализа данных в R

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
3
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 3 модуль

Преподаватели

Программа дисциплины

Аннотация

Основная цель данного курса заключается в формировании у студентов теоретических знаний и практических навыков в использовании различных методов анализа экономических данных и принятии решений на основе этих данных. Курс начинается с введения в анализ данных с использованием языка программирования R. Эта часть закладывает основные технические компетенции студентов, связанные с поиском, импортированием, исследованием, преобразованием и визуализацией данных. Вторая часть курса направлена на приобретение студентами исследовательских и аналитических навыков, охватывая такие методы анализа данных, как тестирование гипотез (параметрическое и непараметрическое, с использованием бутстрапа), метод главных компонент (principal component analysis) и кластеризация (clustering). Курс основан на реальных данных российских и европейских публичных компаний, собранных в международной лаборатории экономики нематериальных активов НИУ ВШЭ, на данных о продажах и покупателях, предоставленных лабораторией GAMES НИУ ВШЭ, а также на открытых наборах данных, выкладываемых на Kaggle.com. После прохождения курса студенты смогут самостоятельно определять необходимые источники данных, обрабатывать их для последующей работы и на их основе отвечать на поставленные вопросы. Курс проводится в смешанном формате. Часть лекций, посвященная основам использования языка R, будет доступна на платформе DataCamp (www.datacamp.com). Другая часть лекций и семинарские занятия проводятся преподавателями НИУ ВШЭ.
Цель освоения дисциплины

Цель освоения дисциплины

  • Знакомство c языком программирования R
  • Умение импортировать данные и проводить базовую предобработку данных для дальнейшего анализа в языке программирование R
  • Знать и применять основные методы базового анализа данных, понимать применимость и ограничение этих методов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает алгоритм проведения статистических гипотез, знает базовые параметрические и непараметрические тесты. Умеет конструировать выборку с помощью бутстрапа. Обладает компетенциями применения и интерпретации параметрических тестов с использовании техники бутстрап.
  • Знать базовые типы данных и синтаксис языка программирования R. Умеет трансформировать данные в необходимый формат, проводить чистку данных, рассчитывать базовые статистики. Обладает компетенциями визуализации данных.
  • Знают методологию кластерного анализа и метода главных компонент. Умеют применять кластерный анализ и метод главных компонент в языке программирования R. Обладают компетенциями оценки результатов применения метода главных компонент и кластерного анализа.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы работы в R
  • Тестирование статистических гипотез
  • Метод главных компонент и кластерный анализ
Элементы контроля

Элементы контроля

  • неблокирующий Проект
  • неблокирующий Микроконтроли
    Оценка за микроконтроли рассчитывается как среднее арифмитеческое отдельных микроконтролей, всего из будет проведено 5-6. Обычно микроконтроль проводится в начале семинара в течение 5-7 минут, включает в себя вопросы по пройденному материалу.
  • неблокирующий Самостоятельная работа (DataCamp)
    Студентам предлагаются к прохождению обязательные курсы и дополнительные курсы на площадке DataCamp
  • неблокирующий Отчеты
    По итогам части семинаров студенты оформляют отчет о проделанной работе. Оценка за отчеты составляет среднее арифметическое всех отчетов.
  • неблокирующий Экзамен
    Эзамен представляет собой 60-минутную письменную работу, которая включает в себя (1) тестовые задания открытого типа; (2) тестовые задания закрытого типа; (3) интерпретация результатов работы алгоритма на языке программирования R
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 3 модуль
    0.15 * Микроконтроли + 0.15 * Отчеты + 0.2 * Проект + 0.1 * Самостоятельная работа (DataCamp) + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Spector, P. (2008). Data Manipulation with R. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=229058

Рекомендуемая дополнительная литература

  • Corder, G. W., & Foreman, D. I. (2014). Nonparametric Statistics : A Step-by-Step Approach (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=798830
  • Gatignon, H. (2013). Statistical Analysis of Management Data (Vol. Third edition). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1073815
  • Govaert, G. (2009). Data Analysis. London: Wiley-ISTE. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=310759
  • Rahlf, T. (2017). Data Visualisation with R : 100 Examples. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1377904