IDLab запускает конкурс для студентов «Прогнозирование на эмбеддингах»
Международная лаборатория экономики нематериальных активов (IDLab) приглашает студентов всех образовательных программ пермского кампуса НИУ ВШЭ и других университетов принять участие в конкурсе по прогнозированию кода трудовой функции на основе текстовых эмбеддингов. Победители получат приглашение для стажировки в лаборатории и участия в ее проектах, в том числе внедрение результатов своей работы.
Цели и задачи конкурса
Цель конкурса – прогнозирование кода трудовой функции по Общероссийскому классификатору занятий (ОКЗ) на основе текстовых эмбеддингов, соответствующих названию должности (рассчитаны организаторами). ОКЗ состоит из цифровых символов и имеет вид «ХХХХ». Необходимо построить прогноз для 2 первых цифр классификатора с точностью (accuracy) не менее 55%.
Набор данных представляет собой два файла в формате csv:
- data.csv. Структура файла: okz, V1,…,V50. В переменной okz находится целевая переменная (первые 2 цифры ОКЗ), переменные V1,…,V50 содержат вектор эмбеддингов, соответствующих названию должности, соответствующей okz. Необходимо создать модель, предсказывающую okz на базе V1,…,V50. Файл используется для обучения, участники конкурса могут делить его на тестовую и обучающую выборку.
- prediction.csv. Структура файла: id, V1,…,V50. В переменной id находится идентификатор наблюдения, переменные V1,…,V50 содержат вектор эмбеддингов. Задача участников заключается в предсказании okz на базе модели, которую они обучили (используя data.csv) по эмбеддингам из этого файла.
Участники сдают два файла:
- csv-файл, имя которого совпадает с фамилией участника. Формат файла: id (из файла prediction.csv), okz (содержит 2 цифры, соответствующие начальным цифрам классификатора ОКЗ).
- Скрипт на языке R или Python, реплицирующий csv файл на базе файла prediction.csv
Особенности конкурса в том, что для оценки качества решения используется метрика accuracy, которая рассчитывается как процент от общего числа классов, определенных верно.
Как принять участие?
Для участия необходимо подписаться на телеграм-канал конкурса – в нем размещена вся оперативная информация. Каждый день в телеграм-канале будут подводиться итоги и публиковаться текущий рейтинг: участник и значение метрики accuracy, которое ему удалось достичь.
Конкурс стартует 9 февраля 2023 года, решения принимаются до 18 февраля. Окончательные результаты и победители будут объявлены 19 февраля.
Петр Паршаков, заведующий Международной лабораторией экономики нематериальных активов НИУ ВШЭ – Пермь (IdLab)
Этот конкурс — уникальная возможность протестировать навыки анализа данных на реальной задаче. Лучших студентов мы ждем в лаборатории для решения в том числе похожих задач – на стыке экономики и анализа данных.