Как найти кассовый хит: машинное обучение для прогнозирования результатов российского кинопроката обсудили на семинаре департамента менеджмента
.jpg)
19 июня в НИУ ВШЭ – Пермь состоялся научный семинар департамента менеджмента. С результатами исследования «Прогнозирование сборов и просмотров российских фильмов в кинопрокате: факторы, проблемы, методы» выступил старший научный сотрудник Федерального научно-исследовательского социологического центра РАН Антон Дождиков.
Спикер представил результаты анализа 1800 релизов отечественных кинофильмов за 2004-2024 годы. В частности, было показано, что «из 100 фильмов мы можем достаточно точно предсказать прокатную судьбу 90-95», а ключевым фактором успеха является не только жанр или сюжет, но и совокупный опыт творческой команды.
Методологическая часть доклада включала комплексный подход к обработке данных. На первом этапе был проведен кластерный анализ фильмов с использованием алгоритма к-средних, силуэтного коэффициента и метода «локтя», что позволило выделить четыре устойчивых сегмента кинопроизводства по бюджетам и сборам. Докладчик отметил, что «среднебюджетные фильмы с рациональным позиционированием имеют наибольшие шансы на успех», тогда как высокобюджетные проекты, несмотря на масштаб, часто демонстрируют низкую окупаемость.
Отдельный блок семинара был посвящен анализу текстовых данных – синопсисов и рекламных слоганов фильмов. С помощью количественного контент-анализа оценивалась частотность лексем, так называется слово в словаре, «слово как таковое», и их связь с коммерческим результатом кинокартины. Однако, как подчеркнул Антон Валентинович, «зная только текст, предсказать коммерческий успех фильма невозможно — необходим гибридный подход».
Ключевым этапом его исследовательского проекта стала разработка гибридной модели прогнозирования, объединяющей количественные (бюджет, хронометраж, возрастной рейтинг, исторические сборы) и качественные признаки (тексты рекламных слоганов и аннотации фильмов, состав творческой команды). В качестве базовых алгоритмов использовались модели градиентного бустинга в постановке классификации и регрессии для оценки сборов и просмотров по квантилям. Итоговая модель продемонстрировала высокую прогностическую способность: метрика, которая показывает, насколько хорошо модель ранжирует объекты, – достигает 0,94-0,95, что сопоставимо с точность банковской оценки заемщиков при рассмотрении заявок на кредиты.
Главным результатом анализа стало то, что «командный успех – интегрированный показатель по всем участникам проекта – сильнее всего коррелирует с итоговыми сборами». При этом модель учитывает дисбаланс классов: успешных фильмов в прокате примерно в десять раз меньше, чем неуспешных, что требует дополнительной балансировки выборки и настройки метрик качества.
Практическое применение разработанных инструментов связано с формированием инвестиционных портфелей в киноиндустрии. «Если отбирать проекты с помощью предложенной модели, то из 15 фильмов около 12 с высокой вероятностью окажутся прибыльными», — отметил Антон Дождиков. Такой подход позволяет существенно снизить риски и повысить эффективность вложений в кинематограф.
В рамках семинара также обсуждались ограничения, связанные с влиянием внешних факторов — маркетинга, звёздного состава и социального контекста. Представленные автором проекта решения уже готовы к использованию как инструмент первичного отбора проектов и поддержки управленческих решений. Семинар вызвал живую дискуссию и подтвердил высокий интерес к аналитике и методам машинного обучения в креативных индустриях.

