• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Математические методы анализа данных

2021/2022
Учебный год
RUS
Обучение ведется на русском языке
5
Кредиты

Преподаватель

Программа дисциплины

Аннотация

Настоящая программа учебной дисциплины устанавливает требования к образовательным результатам и результатам обучения студента и определяет содержание и виды учебных занятий и отчетности. Программа предназначена для преподавателей, ведущих дисциплину «Математические методы анализа данных», учебных ассистентов и студентов направления подготовки 09.03.04 Программная инженерия, обучающихся по образовательной программе «Программная инженерия».
Цель освоения дисциплины

Цель освоения дисциплины

  • Приобретение студентами базовых знаний по основам анализа данных;
  • Знакомство с прикладными задачами дисциплины;
  • Анализ алгоритмов обработки статистических и эмпирических данных, используемых в современном программном обеспечении;
  • Получения практических навыков использования статистических и эмпирических методов анализа данных в ходе разработки и экспериментального исследования новых программных продуктов;
  • Развитие умений, позволяющих использовать опыт применения статистических и эмпирических методов обработки данных для решения задач экономического анализа и моделирования.
Планируемые результаты обучения

Планируемые результаты обучения

  • Решает задачи на проверку данных на выбросы, нормальное распределение.
  • Решает задачи на проверку статических гипотез на реальных данных.
  • Решает задачи корреляционного анализа и проверки статистических гипотез на наличие взаимосвязи между признаками. Может оценить взаимосвязь между несколькими переменными. Знает параметрические и непараметрические методы оценки
  • Решает задачи классификации и кластеризации пространства наблюдений
  • Решает задачи построения и проверки на качество регрессионных моделей и моделей временных рядов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Предварительный анализ данных
    Статистические методы обработки экспериментальных данных. Основные понятия и задачи математической статистики. Генеральная совокупность, выборка, результаты наблюдений, статистика, статистическая оценка, требования к оценкам. Классификация признаков по шкалам измерений. Описательная статистика: среднее значение, математическое ожидание, медиана, мода, дисперсия, среднее квадратичное отклонение, коэффициент вариации, показатель точности опыта, минимум, максимум, размах выборки, моменты распределения. Вариационная статистика: параметры классовых интервалов, группировка, функции эмпирического распределения. Ранжирование.
  • Проверка статистических гипотез
    Основные понятия проверки статистических гипотез. Нулевая и конкурирующая гипотезы. Критерии проверки. Параметрические и непараметрические гипотезы. Проверка случайности выборки из нормальной совокупности. Статистические гипотезы и статистические критерии. Характеристики критериев. Тест Вальда. Тест Стьюдента. Лемма Неймана-Пирсона. Критерий отношения правдоподобия. Введение в A/B-тестирование. Критерий последовательного отношения правдоподобия. Непараметрические критерии.
  • Корреляционный анализ данных
    Парный коэффициент корреляции. Проверка гипотезы о значимости коэффициента корреляции. Доверительный интервал для парного коэффициента корреляции. Частный коэффициент корреляции. Проверка гипотезы о значимости частного коэффициента корреляции. Доверительный интервал для частного коэффициента корреляции. Множественный коэффициент корреляции. Проверка гипотезы о значимости множественного коэффициента корреляции. Корреляционный анализ качественных данных. Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков: коэффициенты контингенции, ассоциации, среднеквадратической сопряженности, Пирсона, Крамера). Исследование связи между порядковыми переменными (ранговый коэффициент корреляции Спирмена, коэффициент согласованности Кендалла, коэффициент конкордации).
  • Методы классификации многомерных наблюдений
    Классификация многомерных наблюдений без обучения (непараметрический случай), кластерный анализ. Общая постановка задачи автоматической классификации, классификации без обучения, понятия кластерного анализа. Метрики расстояния и близости между объектами, расстояния между кластерами. Функционалы качества разбиения. Основные типы задач и алгоритмов кластерного анализа. Иерархические, параллельные и последовательные процедуры кластерного анализа. Метод к-средних. Зависимость выбора алгоритма классификации от цели статистического исследования. Классификация многомерных наблюдений при наличии обучающих выборок, дискриминантный анализ. Методы классификации с обучением, основные понятия дискриминантного анализа. Обучающие выборки. Линейный дискриминантый анализ при известных параметрах многомерного нормального закона распределения (случай двух классов и общий случай). Вероятность ошибочной классификации с помощью дискриминантной функции. Оценка качества дискриминантной функции и информативности отдельных признаков. Классификация многомерных наблюдений без обучения (параметрический случай), расщепление смесей вероятностных распределений. Канонические корреляции. Понятие и задача расщепления смеси вероятностных распределений. Алгоритм решения задачи автоматической классификации в рамках модели смеси распределений, приводящий к схеме дискриминантного анализа Канонические корреляции и канонические величины генеральной совокупности, их оценивание, интерпретация и использование в экономических исследованиях.
  • Регрессионный анализ и анализ временных рядов
    Анализ однофакторной регрессионной модели Простейшая линейная регрессионная модель (ПЛРМ). Природа случайной ошибки. Корреляционное поле наблюдений и его применение к выбору формы регрессии. Оценки методом наименьших квадратов коэффициентов ПЛРМ. Интерпретация коэффициентов ПЛРМ. Коэффициент детерминации и его свойства. Теорема Гаусса–Маркова. Доверительные интервалы для коэффициентов регрессии и проверка гипотез об их значимости (t – тест). Проверка значимости всей регрессии на основе критерия Фишера. Прогнозирование значения зависимой переменной по ПЛРМ, точность прогноза. Функциональные преобразования в линейной регрессионной модели. Линеаризация нелинейной регрессионной модели. Анализ общей линейной модели наблюдений при классических предположениях Множественный регрессионный анализ: особенности спецификации модели, отбор факторов при построении множественной регрессии. Классическая нормальная линейная модель множественной регрессии, оценка параметров методом МНК, ковариационная матрица и ее выборочная оценка. Оценка дисперсии возмущений. Определение доверительных интервалов для коэффициентов и функции регрессии. Оценка значимости множественной регрессии. Анализ линейной модели наблюдений при отклонениях от классических предположений Возможные отклонения от предположений классической общей линейной модели наблюдений (ОЛМН): закон распределения, отличный от нормального; автокорреляция, ее суть, причины, последствия, обнаружение и методы устранения; гетероскедастичность, ее суть, последствия, обнаружение и методы смягчения проблемы гетероскедастичности; Исследовательские методы проверки отсутствия гомоскедастичности: тесты Спирмена, Голдфелда–Квандта, Уайта. Мультиколлинеарность, ее суть, последствия, определение и методы устранения. Взвешенный МНК как частный случай обобщенного МНК; содержательный смысл этого подхода. Метод максимального правдоподобия. Реализация этого метода для модели с двумя группами однородных наблюдений. Методы построения моделей по динамическим данным. Стационарные и нестационарные временные ряды. Проверка на стационарность. Методы оценивания.
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Домашняя работа
  • неблокирующий Аудиторная работа
  • неблокирующий Контрольная работа
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.1 * Аудиторная работа + 0.2 * Домашняя работа + 0.3 * Контрольная работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Анализ данных : учебник для академического бакалавриата, Мхитарян, В. С., 2018
  • Введение в анализ данных : Учебник и практикум для бакалавриата и магистратуры, Миркин Б.Г., НИУ ВШЭ, 2017
  • Введение в анализ данных : учебник и практикум для вузов, Миркин, Б. Г., 2015
  • Эконометрика : учебник, Елисеева И.И., 2003

Рекомендуемая дополнительная литература

  • Методы и средства комплексного анализа данных : учебное пособие для вузов, Кулаичев, А. П., 2011
  • Эконометрика : учебник и практикум для прикладного бакалавриата, Демидова, О. А., Малахов, Д. И., 2017