Евгений Ожегов и Дарья Тетерина: методы машинного обучения в оценке цензурированного спроса
Задумывались ли вы когда-нибудь о том, почему некоторые компании тратят огромные деньги на содержание аналитических отделов и инвестируют немало средств в разработку и совершенствование алгоритмов прогнозирования спроса? Ответ на этот вопрос весьма тривиален: все дело в деньгах. Даже небольшое увеличение точности прогноза объемов продаж или потока клиентов способно многократно увеличить прибыль компании. В исследовании, выполненном научным сотрудником лаборатории GAMES НИУ ВШЭ – Пермь Евгением Ожеговым и стажером-исследователем Дарьей Тетериной, разработан алгоритм, который позволяет увеличить точность прогноза дневных продаж товаров в рамках продуктовой категории.
В течение довольно длительного времени прогнозирование спроса в ритейле осуществлялось исключительно с использованием эконометрических методов, которые казались достаточно эффективными для работы с небольшими наборами данных и были хорошо интерпретируемыми с точки зрения оценки параметров. С ростом доступности данных о покупках отдельных индивидов на смену эконометрическим моделям пришли методы машинного обучения (ML). Предпочтение ML-методам было отдано потому, что они позволяют получать более точные прогнозы на больших наборах данных (по сравнению с традиционными эконометрическими моделями) и учитывать ненаблюдаемую неоднородность потребителей, что неоднократно было доказано исследователями (например, Agrawal & Schorling, 1996; Varian, 2014; Bajari, Nekipelov, Ryan & Yang, 2015).
Тем не менее, свою высокую эффективность ML-методы продемонстрировали, в основном, в решении общих проблем регрессии и классификации. Для некоторых особых случаев, например, для оценки цензурированных моделей спроса, лучших решений (относительно традиционных эконометрических моделей) на основе ML-методов разработано не было.
Спрос называется цензурированным слева нулем, если в данных о продажах товара присутствует большое количество нулевых продаж. По факту это означает, что товар был на полке, но потребители его ни разу не купили за единицу времени. Если не учитывать такую особенность данных при моделировании спроса, то значительная часть предсказанных продаж будет отрицательной, а предсказание — смещенным.
В своей работе мы попытались объединить сильные стороны традиционных эконометрических моделей и методов машинного обучения. На первом этапе, воспользовавшись алгоритмом, описанным в работе Bajari et al. (2015), мы построили ансамблевую модель, состоящую из нескольких простых предсказательных моделей спроса: линейной регрессии, лассо (lasso), ридж (ridge) и случайного леса (random forest) и, измерив ошибку предсказания данного ансамбля с помощью RMSE (Root Mean Squared Error), оценили прогнозное качество данной модели. Далее, мы добавили шаги по учету цензурированности спроса, описанных в работе Chernozhukov, Hong (2012), в оценку каждой из простых предсказательных моделей (линейной регрессии, лассо, ридж и случайного леса), и уже из таких модифицированных моделей построили ансамбль. На последнем этапе мы сравнили между собой показатели предсказательной точности моделей с учетом и без учета цензурированности и показали, что предложенное обобщение способствует повышению предсказательной точности моделей.
Для проверки работоспособности предложенного алгоритма мы использовали реальные данные российской региональной продуктовой розничной сети о покупках товаров одной продуктовой категории – макаронных изделий. Объем анализируемой выборки составил 800 000 ежедневных продаж. Единица наблюдения в данных представляла собой комбинацию единицы товара (SKU) и определенного магазина в конкретную дату. Если единица товара в определенном магазине в конкретный день была представлена, но не была куплена, в данных это отражалось как нулевая продажа. При этом более 60% наблюдений оказались равными нулю, что говорит о необходимости учета цензурированности спроса.
Итак, применив разработанный нами алгоритм к данным розничной сети, мы получили следующие результаты: каждая отдельная модель, учитывающая цензурированность спроса, показала лучшие прогнозные качества, чем аналогичные модели без учета цензурирования; предсказательная мощность ансамблевой цензурированной модели также оказалась выше, чем мощность ансамбля без учета цензурированности (ошибка прогноза в первом случае составила 0.684, а во втором — 0.781, разность этих ошибок оказалась статистически значимой).
На деле это значит, что нам удалось сконструировать алгоритм, способный более точно прогнозировать продажи для ритейл-сети. Если ритейлер внедрит данную модель, то сможет повысить качество ценообразования и планирования ассортимента и увеличить прибыль.
С полным текстом исследования можно ознакомиться здесь.
Ожегов Евгений Максимович