• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
  • НИУ ВШЭ в Перми
  • Новости
  • «Мы хотим дать коллегам современный продвинутый инструментарий для реализации исследовательских задач»

«Мы хотим дать коллегам современный продвинутый инструментарий для реализации исследовательских задач»

Изображение сгенерировано в нейросети Kandinsky

Изображение сгенерировано в нейросети Kandinsky
Изображение сгенерировано в нейросети Kandinsky

Ассистент департамента иностранных языков Никита Маткин и преподаватель кафедры гуманитарных дисциплин Анна Сенина проведут в этом году бесплатный межкампусный курс «Python для обработки языка» для преподавателей и научных сотрудников гуманитарного и социального направлений без опыта программирования. Проект был поддержан в рамках конкурса академических инициативных проектов кадрового резерва НИУ ВШЭ. В интервью нашему порталу Никита подробно рассказал об особенностях курса, его уникальности и условиях участия.

О чем курс?

Прежде всего необходимо обозначить, что курс рассчитан на исследователей из гуманитарных и социальных наук без опыта программирования. Эта главная фишка нашего курса. Мы хотим дать коллегам современный продвинутый инструментарий для реализации исследовательских задач. Python – это не инструмент, это океан инструментов, которые позволяют гибко настраивать любые методы под конкретные задачи.

Курс «Python для обработки языка» будет проводиться для сотрудников Вышки, желающих обучиться использованию языка Python для своей исследовательской деятельности (преимущественно в гуманитарной сфере). Курс разделен на 3 блока: «Основы программирования на Python», «Анализ данных на Python» и «Обработка естественного языка». Каждый блок состоит из 11 семинарских занятий и 1 защиты проекта. 

Проект состоит из трех блоков:

Основы программирования на Python

В данном блоке слушатели узнают сферы использования Python в гуманитарных исследованиях, овладеют основами синтаксиса и логики. Предлагается изучить следующие темы: типы данных, переменные, функции print и input, арифметические и логические операторы, оператор if/elif/else, циклы for и while, строки и операции со строками, списки и срезы, кортежи, множества, словари, формат JSON, открытие и запись файлов .txt и .csv, создание функций, подключение библиотек, веб-скрейпинг.

Анализ данных на Python

В рамках этого блока слушатели познакомятся с основами статистики и научатся работать с датасетами в библиотеке Pandas. На семинарах будут освещены следующие темы: библиотека Numpy, массивы, библиотека Pandas, понятие датафрейма, создание датафрейма, добавление и удаление столбцов, логические и математические срезы, поиск данных на сайтов, загрузка данных, создание частотных таблиц, выборочная и генеральная совокупность, меры средних, меры центральной тенденции и меры разброса, работа с выбросами, оценка датасета, корреляция, линейная и логистическая регрессия, визуализация.

Обработка естественного языка

Блок основан на современных методах в области Natural Language Processing и направлен на развитие цифровых компетенций в области обработки и анализа текста. В рамках блока слушатели пройдут следующие темы: редактирование текста в Python, работа с pdf-файлами, регулярные выражения, токенизация, лемматизация, очистка от стоп-слов, частотный анализ, анализ коллокаций и конкордансов, Name-entity Recognition (Распознавание именных сущностей), Topic Modeling (Тематическое моделирование), Sentiment Analysis (анализ тональности), Affinity Index (Индекс соответствия), векторные представления слов методами TF-IDF и Bag of Words, модели Word2Vec и Fasttext, визуализация текстовых данных.

Почему курс важен?

Многие исследователи в гуманитарных и социальных науках осознают необходимость цифровых компетенций для применения новых методов. Язык программирования Python является гибким инструментом для исследовательской деятельности. Освоив его, исследователи могут научиться гибко применять современную методологию под актуальные им задачи.

В процессе нетворкинга на кадровом резерве я заметил, что молодые ученые проявляют интерес к Python. Исследователи работают с текстом, но существующие компьютерные программы не могут закрыть все потребности для его обработки. Даже начальный процесс обработки текста – лемматизация – может вызывать сложности, так как спектр готовых решений достаточно узок. Готовых и гибких  решений для более продвинутых методов просто нет, из-за чего появляется необходимость в изучении языка программирования.

Мы выделили несколько проблем, которые поможет закрыть наш проект. Во-первых, Python обладает собственным синтаксисом и логикой. Его сложно изучить самостоятельно, особенно специалистам, ранее не работавшим с языками программирования. Исследователям, желающим освоить новые методы, необходимо либо заниматься долгим самостоятельным изучением (на что часто не хватает времени), либо же оплатить курсы дополнительного образования.

Во-вторых, часто для решения цифровых задач эксперты из гуманитарных наук привлекают программистов из других отделов. Понимание языка Python позволит либо облегчить коммуникации между экспертами из разных сфер, либо самостоятельно реализовать поставленную задачу.

В-третьих, в готовых цифровых решениях есть ограничения, что заставляет использовать несколько программ или упрощать исследование. Python является гибким инструментом. Ученые могут самостоятельно настраивать нужные программы и преодолеть существенную часть ограничений. В-четвертых, с Python можно автоматизировать рутинные задачи, что увеличивает эффективность работника.

В чем уникальность курса?

Вышка осознает необходимость развития цифровых компетенций. К примеру, в рамках проекта Data Culture студенты бакалавриата всех направлений на втором курсе в обязательном порядке изучают Python, а на третьем курсе – анализ данных. Мы видим спрос на изучение этих методов среди преподавателей в том числе. А так как у нас есть готовые материалы, почему не помочь коллегам закрыть эту потребность?

Я увидел, что «нетехническим» специалистам достаточно сложно самостоятельно пройти путь от основ программирования до написания программы в области NLP. Я предлагаю несколько доступных траекторий.

Во-первых, можно изучить готовые курсы, к примеру, на Youtube или Stepik. Они часто бесплатны, но необходим высокий уровень самоорганизации и придется работать без обратной связи. Часто такие решения занимают существенно больше времени, чем закладывается изначально. А время в Вышке – очень ценный ресурс.

Во-вторых, можно пройти курсы повышения квалификации. Многие курсы предназначены для рынка, они не ориентированы под исследовательские задачи. Кроме того, курсы платные, часто даже дорогие. Внутри Вышки я могу порекомендовать курсы старшего преподавателя ФКН Маргариты Буровой или курсы Анны Сениной, которая является соавтором и нашего курса. Вышка для своих сотрудников предоставляет и бесплатные решения, например, курс по программе «Программирование на языке Python для сбора и анализа данных» от Центра повышения квалификации. К сожалению, данный курс начался в октябре, в нем нет блока по анализу текста и он реализуется только для сотрудников Москвы.

В чем же уникальность нашего курса? Мы предлагаем пройти полный путь: оновы и базовые принципы в программировании, сбор и обработка различных типов данных, работа с таблицами, статистические методы и, самое важное, методы обработки естественного языка. Наш курс межкампусный и бесплатный. Все материалы будут доступны онлайн всем желающим. На каждом занятии мы будем давать задачки (чем дальше, тем более прикладные) и обратную связь. Если вы давно мечтали познакомиться с Python, то рекомендую уже заполнять форму регистрации.

Об авторах курса

Маткин Никита Андреевич

Департамент иностранных языков: Ассистент

Сенина Анна Васильевна

Кафедра гуманитарных дисциплин (Пермь): Преподаватель

Авторы курса – Никита Маткин и Анна Сенина – преподаватели языка программирования Python для гуманитарных специальностей. Мы активно используем Python в исследовательской деятельности, к примеру, Анна Васильевна – для изучения земств, а я – для исследования социальных сетей. Гуманитарный бэкграунд в сочетании с цифровыми навыками позволяет доступным языком объяснять сложные аспекты языка программирования. Проект курса Python Анны Сениной стал победителем в конкурсе ФОИ в 2022 году. Кроме того, члены проектной группы работали на курсах повышения квалификации на программе ДПО «Компьютерная лингвистика» в 2022-2023 году.

Как будет проходить курс?

 Занятия будут проходить 1-2 раза в неделю в 18:20 (мск) в онлайне. Дни проведения занятий обговаривается по решению большинства участников.

 Длительность всего курса: 72 академических часа, то есть каждый блок длится по 24 часа (11 занятий + защита проектов). Будет возможность и индивидуальных консультаций для участников семинаров.

 Курс планируется провести с 1 февраля по 1 ноября 2024 года.

Как можно зарегистрироваться?

Для регистрации необходимо отправить мотивационное письмо «Почему вам необходим Python?». В письме расскажите о себе, о своих научных интересах, об опыте работы с языками программирования или со статистикой, а также почему вы решили податься на курс и в каких задачах вы столкнулись с необходимостью использования Python.

Регистрация