Научный семинар НУГ
11 октября в ауд. 208(3) состоялось очередное заседание научного семинара НУГ «Гетерогенные эффекты воздействия в клиентской аналитике».
Степан Гоголев (студент 4 курса программы «Экономика») и Дарья Семенова (студентка 2 курса магистерской программы «SMART-маркетинг: данные, аналитика, инсайты») представили свои работы в рамках исследований НУГ.
Степан выступил с докладом на тему "Comparison of Machine Learning Algorithms in Restaurant Revenue Prediction".
В работе были рассмотрены некоторые аспекты применения классических алгоритмов машинного обучения к решению задачи регрессионного анализа. Сравнивается прогностическая способность различных методов, использованных для предсказания выручки новой точки крупной российской сети ресторанов. В работе уделяется особое внимание решению 2 проблем: неоднородность данных и большое количество коррелированных характеристик. Для решения проблемы неоднородности применяются методы взвешивания наблюдений и оценки моделей на подвыборках. Объясняются преимущества применения расстояния Махаланобиса для устранения неоднородности данных, а также сравниваются следующие модели: обычный МНК (OLS), метод эластичной сети (elastic net), метод опорных векторов (SVM), случайный лес (random forest).
Доклад Дарьи был посвящен сравнению методов оценки индивидуального эффекта от воздействия. Эта работа является совместным исследованием Дарьи и Марии Темиркаевой.
На сегодняшний день оценка эффективности воздействия на индивидуальном уровне является важной проблемой во многих областях науки и бизнеса. Например, в маркетинге оценки эффекта промомеханики; в медицине - оценка индивидуальных эффектов воздействия используются для определения оптимальной дозы лекарства для каждого пациента и так далее. В то же время вопрос о выборе наилучшего метода, то есть метода, обеспечивающего наименьшую прогностическую ошибку (например, RMSE) или наибольшую общую (среднюю) величину эффекта, остается открытым. В данной работе сравнивается эффективность методов машинного обучения для оценки индивидуальных эффектов воздействия. Сравнение выполняется на наборе данных Criteo Uplift Dataset. Далее показывается, что комбинация метода логистической регрессии и подхода двух моделей, а также метод Uplift Random Forest обеспечивают наилучшее выявление индивидуального эффекта от воздействия.