Михаил Окунев о трендах в machine learning
В НИУ ВШЭ — Пермь состоялся первый в этом учебном году семинар исследовательской группы GAMES, на котором Михаил Окунев рассказал о машинном обучении на примере своей работы в Google, Microsoft.
Семинар проходил в формате открытого диалога. Михаил объяснил, как он увлекся данной темой, в каких проектах, связанных с машинным обучением участвовал. «Я хочу поговорить о разных задачах, о том, что происходит сейчас в машинной индустрии, поделиться опытом, а также про то, чем занимается machine learning engineer, и как им стать», — отметил эксперт.
Так, Михаил долгое время работал в подразделении Microsoft, занимающемся поисковой системой Bing и др. В рамках своей работы эксперт решал разные задачи методами машинного обучения: занимался детекцией спама, фрода, анализом тональности текстов, поиском нечетких дубликатов в огромной базе данных и другими. Он поделился своим опытом, подробно разобрав и проанализировав различные подходы. Например, Михаил разрабатывал алгоритм для ранжирования и выделения популярных комментариев в ленте соцсетей. При этом пришлось учитывать множество критериев, включающих в себя качество комментария, количество лайков, отсутствие спама и т.п. «Подобные задачи укладываются в стандартное машинное обучение, — подчеркнул Михаил. — При этом главное — это точность прогноза». Эксперт рассказал о методах градиентного бустинга, помогающих усилить изначально несовершенную математическую модель и увеличить точность прогноза до 90%.
Михаил сравнил также эконометрические модели и методы численной оптимизации. Так, эконометрические модели учитывают тысячи условий и, как правило, просты, хорошо описывают данные, фокусируются на взаимосвязи и казуальных эффектах. Методы численной оптимизации ориентированы на создание сложных нелинейных моделей на тренировочном наборе данных, точность моделей проверяется на тестовом наборе, а затем запускается на новых данных. Участники семинара в целом согласились с таким сравнением методов.
В завершение встречи Михаил отметил, что главная цель в машинном обучении сегодня — это сделать так, чтобы им могли пользоваться неспециалисты. Сегодня machine learning доступно профессионалам, разбирающимся в математике и IT-технологиях.