• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Статистические и эмпирические методы компьютинга

2020/2021
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
3-й курс, 3 модуль

Программа дисциплины

Аннотация

Целями освоения дисциплины «Статистические и эмпирические методы компьютинга» по направлению подготовки 09.03.04 Программная инженерия являются: • приобретение студентами базовых знаний по основам анализа данных; • знакомство с прикладными задачами дисциплины; • анализ алгоритмов обработки статистических и эмпирических данных, используемых в современном программном обеспечении; • получения практических навыков использования статистических и эмпирических методов компьютинга в ходе разработки и экспериментального исследования новых программных продуктов; • развитие умений, позволяющих использовать опыт применения статистических и эмпирических методов обработки данных для решения задач экономического анализа и моделирования. Настоящая дисциплина относится к базовой части профессионального цикла дисциплин. Изучение данной дисциплины базируется на следующих дисциплинах: «Алгебра», «Математический анализ», «Дискретная математика», «Теория вероятностей и математическая статистика», «Введение в программную инженерию», «Программирование».
Цель освоения дисциплины

Цель освоения дисциплины

  • Целями освоения дисциплины «Статистические и эмпирические методы компьютинга» по направлению подготовки 09.03.04 Программная инженерия являются: • приобретение студентами базовых знаний по основам анализа данных; • знакомство с прикладными задачами дисциплины; • анализ алгоритмов обработки статистических и эмпирических данных, используемых в современном программном обеспечении; • получения практических навыков использования статистических и эмпирических методов компьютинга в ходе разработки и экспериментального исследования новых программных продуктов; • развитие умений, позволяющих использовать опыт применения статистических и эмпирических методов обработки данных для решения задач экономического анализа и моделирования.
Планируемые результаты обучения

Планируемые результаты обучения

  • Решает задачи на проверку данных на выбросы, нормальное распределение.
  • Решает задачи корреляционного анализа и проверки статистических гипотез на наличие взаимосвязи между признаками. Может оценить взаимосвязь между несколькими переменными. Знает параметрические и непараметрические методы оценки
  • Решает задачи классификации и кластеризации пространства наблюдений
  • Решает задачи построения и проверки на качество регрессионных моделей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Раздел 1. Предварительный анализ данных
    Статистические методы обработки экспериментальных данных. Основные понятия и задачи математической статистики. Генеральная совокупность, выборка, результаты наблюдений, статистика, статистическая оценка, требования к оценкам. Классификация признаков по шкалам измерений. Описательная статистика: среднее значение, математическое ожидание, медиана, мода, дисперсия, среднее квадратичное отклонение, коэффициент вариации, показатель точности опыта, минимум, максимум, размах выборки, моменты распределения. Вариационная статистика: параметры классовых интервалов, группировка, функции эмпирического распределения. Ранжирование. Проверка случайности выборки из нормальной совокупности. Статистические гипотезы и статистические критерии. Характеристики критериев. Тест Вальда. Тест Стьюдента. Лемма Неймана-Пирсона. Критерий отношения правдоподобия. Введение в A/B-тестирование. Критерий последовательного отношения правдоподобия. Непараметрические критерии. Формы и методы проведения занятий по разделу, применяемые учебные технологии: лекционные занятия, решение задач на семинарах, самостоятельная работа, проверка усвоенного материала микроконтролем.
  • Раздел 2. Корреляционный анализ данных
    Парный коэффициент корреляции. Проверка гипотезы о значимости коэффициента корреляции. Доверительный интервал для парного коэффициента корреляции. Частный коэффициент корреляции. Проверка гипотезы о значимости частного коэффициента корреляции. Доверительный интервал для частного коэффициента корреляции. Множественный коэффициент корреляции. Проверка гипотезы о значимости множественного коэффициента корреляции. Корреляционный анализ качественных данных. Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков: коэффициенты контингенции, ассоциации, среднеквадратической сопряженности, Пирсона, Крамера). Лямбда меры прогноза Гутмана. Исследование связи между порядковыми переменными (ранговый коэффициент корреляции Спирмена, коэффициент согласованности Кендалла, коэффициент конкордации). Формы и методы проведения занятий по разделу, применяемые учебные технологии: лекционные занятия, решение задач на семинарах, самостоятельная работа, проверка усвоенного материала микроконтролем.
  • Раздел 3. Методы классификации многомерных наблюдений
    Классификация многомерных наблюдений без обучения (непараметрический случай), кластерный анализ. Общая постановка задачи автоматической классификации, классификации без обучения, понятия кластерного анализа. Метрики расстояния и близости между объектами, расстояния между кластерами. Функционалы качества разбиения. Основные типы задач и алгоритмов кластерного анализа. Иерархические, параллельные и последовательные процедуры кластерного анализа. Метод к-средних. Зависимость выбора алгоритма классификации от цели статистического исследования. Классификация многомерных наблюдений при наличии обучающих выборок, дискриминантный анализ. Методы классификации с обучением, основные понятия дискриминантного анализа. Обучающие выборки. Линейный дискриминантый анализ при известных параметрах многомерного нормального закона распределения (случай двух классов и общий случай). Вероятность ошибочной классификации с помощью дискриминантной функции. Оценка качества дискриминантной функции и информативности отдельных признаков. Классификация многомерных наблюдений без обучения (параметрический случай), расщепление смесей вероятностных распределений. Канонические корреляции. Понятие и задача расщепления смеси вероятностных распределений. Алгоритм решения задачи автоматической классификации в рамках модели смеси распределений, приводящий к схеме дискриминантного анализа Канонические корреляции и канонические величины генеральной совокупности, их оценивание, интерпретация и использование в экономических исследованиях. Формы и методы проведения занятий по разделу, применяемые учебные технологии: лекционные занятия, решение задач на семинарах, самостоятельная работа, проверка усвоенного материала микроконтролем.
  • Раздел 4. Регрессионный анализ
    Анализ однофакторной регрессионной модели Простейшая линейная регрессионная модель (ПЛРМ). Природа случайной ошибки. Корреляционное поле наблюдений и его применение к выбору формы регрессии. Оценки методом наименьших квадратов коэффициентов ПЛРМ. Интерпретация коэффициентов ПЛРМ. Коэффициент детерминации и его свойства. Теорема Гаусса–Маркова. Доверительные интервалы для коэффициентов регрессии и проверка гипотез об их значимости (t – тест). Проверка значимости всей регрессии на основе критерия Фишера. Прогнозирование значения зависимой переменной по ПЛРМ, точность прогноза. Функциональные преобразования в линейной регрессионной модели. Линеаризация нелинейной регрессионной модели. Анализ общей линейной модели наблюдений при классических предположениях Множественный регрессионный анализ: особенности спецификации модели, отбор факторов при построении множественной регрессии. Классическая нормальная линейная модель множественной регрессии, оценка параметров методом МНК, ковариационная матрица и ее выборочная оценка. Оценка дисперсии возмущений. Определение доверительных интервалов для коэффициентов и функции регрессии. Оценка значимости множественной регрессии. Анализ линейной модели наблюдений при отклонениях от классических предположений Возможные отклонения от предположений классической общей линейной модели наблюдений (ОЛМН): закон распределения, отличный от нормального; автокорреляция, ее суть, причины, последствия, обнаружение и методы устранения; гетероскедастичность, ее суть, последствия, обнаружение и методы смягчения проблемы гетероскедастичности; Исследовательские методы проверки отсутствия гомоскедастичности: тесты Спирмена, Голдфелда–Квандта, Уайта. Мультиколлинеарность, ее суть, последствия, определение и методы устранения. Взвешенный МНК как частный случай обобщенного МНК; содержательный смысл этого подхода. Метод максимального правдоподобия. Реализация этого метода для модели с двумя группами однородных наблюдений. Формы и методы проведения занятий по разделу, применяемые учебные технологии: лекционные занятия, решение задач на семинарах, самостоятельная работа, проверка усвоенного материала микроконтролем.
Элементы контроля

Элементы контроля

  • неблокирующий Аудиторная работа
  • неблокирующий Самостоятельная работа
  • неблокирующий Экзамен
    неявка по уважительной причине
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (3 модуль)
    0.3 * Аудиторная работа + 0.3 * Самостоятельная работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Под ред. Мхитаряна В.С. - АНАЛИЗ ДАННЫХ. Учебник для академического бакалавриата - М.:Издательство Юрайт - 2019 - 490с. - ISBN: 978-5-534-00616-2 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/analiz-dannyh-432178

Рекомендуемая дополнительная литература

  • Демидова О. А., Малахов Д. И. - ЭКОНОМЕТРИКА. Учебник и практикум для прикладного бакалавриата - М.:Издательство Юрайт - 2019 - 334с. - ISBN: 978-5-534-00625-4 - Текст электронный // ЭБС ЮРАЙТ - URL: https://urait.ru/book/ekonometrika-432950
  • Эконометрика. Практикум: Учебное пособие / С.А. Бородич. - М.: НИЦ ИНФРА-М; Мн.: Нов. знание, 2014. - 329 с.: ил.; 60x90 1/16. - (Высшее образование: Бакалавриат). (переплет) ISBN 978-5-16-009429-8 - Режим доступа: http://znanium.com/catalog/product/440758