Семинар НУГ: анализ эффективности текстового контента
19 апреля научно-учебная группа «Гетерогенные эффекты воздействия в клиентской аналитике» провела шестой по счету научный семинар для студентов Пермской Вышки. На семинаре участники научно-учебной группы обсудили построение моделей машинного обучения для прогнозирования целевой характеристики текстового контента.
Студент 2 курса магистерской программы «Информационная аналитика в управлении предприятием» Эскендер Джемадинов выступил с докладом «Автоматическое выявление «смысловых элементов» с помощью статистических показателей TF-IDF и embeddings и методов машинного обучения».
В данном докладе Эскендер представил результаты своей работы по анализу эффективности текстового контента: о том, как текстовое содержимое влияет на определенную выходную характеристику этого текста. На практике, имеется корпус текста, который написан для той или иной задачи, например, просьба о пожертвовании в социальной сети, и есть целевая характеристика, с которой необходимо работать. Таким образом, цель работы заключается в том, чтобы понять, как текст и его содержимое влияет на реакцию читателя. Это важно для выявления паттернов, которые могут увеличить эффективность написанного текста. Для этого будут использоваться статистический показатель TF-IDF и embeddings, а также методы машинного обучения.
На первом этапе с помощью embedding, то есть сопоставлению слов в тексте некоторому тексту, происходит перевод текста в цифровое пространство. Далее посредством методов кластеризации цифровое пространство преобразуется в смысл, и на последнем шаге для преобразования в ключевой смысл используется статистический показатель TF-IDF, который позволяет учитывать частоту встречаемости слов в тексте.
На примере практической задачи были построены модели машинного обучения для прогнозирования целевой характеристики текстового контента и оценена точность прогноза. Проведенный в работе анализ показал, что использование комбинирования embeddings и TF-IDF в задаче прогнозирования целевой характеристики текстового контента позволяет получить более высокое качество прогноза по сравнению с моделями, где данные два метода используются по отдельности.
Желаем всем участникам научно-учебной группы новых достижений в данном направлении исследования!