• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Научно-исследовательский семинар "Анализ данных"

2019/2020
Учебный год
RUS
Обучение ведется на русском языке
4
Кредиты
Статус:
Курс обязательный
Когда читается:
2-й курс, 3, 4 модуль

Преподаватель

Программа дисциплины

Аннотация

Курс НИС «Анализ данных» призван сформировать у студентов практические навыки использования статистических и эмпирических методов анализа данных в ходе разработки и экспериментального исследования новых программных продуктов; приобретение студентами базовых знаний по основам анализа данных; знакомство с прикладными задачами дисциплины; анализ алгоритмов обработки статистических и эмпирических данных, используемых в современном программном обеспечении; развитие умений, позволяющих использовать опыт применения статистических и эмпирических методов обработки данных для решения задач экономического анализа и моделирования. В результате освоения дисциплины студент должен:  знать основные понятия анализа данных, необходимые для дальнейшего изучения других дисциплин, предусмотренных учебным планом;  уметь применять методы дисциплины для решения задач, возникающих в других дисциплинах;  производить статистические расчеты в стандартных постановках, давать содержательную интерпретацию результатов вычислений, обрабатывать эмпирические и экспериментальные данные  иметь навыки (приобрести опыт) представление о сферах применения и возможностях статистических и эмпирических методов.
Цель освоения дисциплины

Цель освоения дисциплины

  • • приобретение студентами базовых знаний по основам анализа данных;
  • • знакомство с прикладными задачами дисциплины;
  • • анализ алгоритмов обработки статистических и эмпирических данных, используемых в современном программном обеспечении;
  • • получения практических навыков использования статистических и эмпирических методов анализа данных в ходе разработки и экспериментального исследования новых программных продуктов;
  • • развитие умений, позволяющих использовать опыт применения статистических и эмпирических методов обработки данных для решения задач экономического анализа и моделирования.
Планируемые результаты обучения

Планируемые результаты обучения

  • Решает задачи на проверку данных на выбросы, нормальное распределение.
  • Решает задачи корреляционного анализа и проверки статистических гипотез на наличие взаимосвязи между признаками. Может оценить взаимосвязь между несколькими переменными. Знает параметрические и непараметрические методы оценки
  • Решает задачи классификации и кластеризации пространства наблюдений
  • Решает задачи построения и проверки на качество регрессионных моделей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Предварительный анализ данных
    Статистические методы обработки экспериментальных данных. Основные понятия и задачи математической статистики. Генеральная совокупность, выборка, результаты наблюдений, статистика, статистическая оценка, требования к оценкам. Классификация признаков по шкалам измерений. Описательная статистика: среднее значение, математическое ожидание, медиана, мода, дисперсия, среднее квадратичное отклонение, коэффициент вариации, показатель точности опыта, минимум, максимум, размах выборки, моменты распределения. Вариационная статистика: параметры классовых интервалов, группировка, функции эмпирического распределения. Ранжирование. Проверка случайности выборки из нормальной совокупности. Статистические гипотезы и статистические критерии. Характеристики критериев. Тест Вальда. Тест Стьюдента. Лемма Неймана-Пирсона. Критерий отношения правдоподобия. Введение в A/B-тестирование. Критерий последовательного отношения правдоподобия. Непараметрические критерии.
  • Корреляционный анализ данных
    Парный коэффициент корреляции. Проверка гипотезы о значимости коэффициента корреляции. Доверительный интервал для парного коэффициента корреляции. Частный коэффициент корреляции. Проверка гипотезы о значимости частного коэффициента корреляции. Множественный коэффициент корреляции. Проверка гипотезы о значимости множественного коэффициента корреляции. Корреляционный анализ качественных данных. Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков
  • Методы классификации многомерных наблюдений
    Классификация многомерных наблюдений без обучения (непараметрический случай), кластерный анализ. Классификация многомерных наблюдений при наличии обучающих выборок, дискриминантный анализ. Классификация многомерных наблюдений без обучения (параметрический случай), расщепление смесей вероятностных распределений. Канонические корреляции.
  • Регрессионный анализ
    Анализ однофакторной регрессионной модели нелинейной регрессионной модели. Анализ общей линейной модели наблюдений при классических предположениях Анализ линейной модели наблюдений при отклонениях от классических предположений
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Домашняя работа
  • неблокирующий Самостоятельная работа
  • неблокирующий Контактная работа
  • неблокирующий Экзамен
    Предполагает написание теста в системе контроля знаний «Траектория». Также возможно получение оценки за экзамен по средней арифметической накопленных оценок. Так же для получения оценки за экзамен можно выполнить индивидуальный проект (самостоятельная работа) Критерии оценивания Приведено полное верное решение. Решение подробно обосновано 9-10 Приведено полное верное решение. Решение подробно обосновано. Но в решении присутствуют незначительные ошибки 7-8 Приведено полное верное решение, но отсутствует его объяснение или в решении допущены отдельные существенные ошибки 4-6 Выбран верный метод решения, но в решении имеются существенные ошибки 2-3 Выбран неверный метод. Решение не соответствует постановке задачи 1 Решение отсутствует 0. Проект (самостоятельная работа) выполняется студентом самостоятельно. Тема выбирается на выбор студента. Примеры возможной темы: предсказание вероятности мошеннической транзакции в финансовом секторе. стоимости квартиры на основании существующих объявлений на Avito с целью оценки стоимости собственной недвижимости для её последующей продажи. Проект должен включать в себя - формулировку решаемой реальной (или приближенной к реальной) проблемы и постановку задачи машинного обучения; - загрузку, очистку и преобразование данных; - обучение нескольких моделей машинного обучения для решения поставленной задачи; - оценка качества работы обученных моделей; - выводы о возможности применение одной из обученных моделей для решения поставленной проблемы; - откомментированный программный код на языке R, с выполнением различных этапов проекта, в том числе с использованием функций языка R, не проходившихся в рамках курса.
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (4 модуль)
    0.2 * Домашняя работа + 0.1 * Контактная работа + 0.2 * Контрольная работа + 0.1 * Самостоятельная работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Миркин Б. Г.-ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ. Учебник и практикум-М.:Издательство Юрайт,2019-174-Авторский учебник-978-5-9916-5009-0: -Текст электронный // ЭБС Юрайт - https://biblio-online.ru/book/vvedenie-v-analiz-dannyh-432851
  • Под ред. Мхитаряна В.С.-АНАЛИЗ ДАННЫХ. Учебник для академического бакалавриата-М.:Издательство Юрайт,2019-490-Бакалавр. Академический курс-978-5-534-00616-2: -Текст электронный // ЭБС Юрайт - https://biblio-online.ru/book/analiz-dannyh-432178

Рекомендуемая дополнительная литература

  • Демидова О. А., Малахов Д. И.-ЭКОНОМЕТРИКА. Учебник и практикум для прикладного бакалавриата-М.:Издательство Юрайт,2019-334-Бакалавр. Прикладной курс-978-5-534-00625-4: -Текст электронный // ЭБС Юрайт - https://biblio-online.ru/book/ekonometrika-432950
  • Эконометрика. Практикум: Учебное пособие/Бородич С. А. - М.: НИЦ ИНФРА-М, Нов. знание, 2015. - 329 с.: 60x90 1/16. - (Высшее образование: Бакалавриат) ISBN 978-5-16-009429-8 - Режим доступа: http://znanium.com/catalog/product/502332