We use cookies in order to improve the quality and usability of the HSE website. More information about the use of cookies is available here, and the regulations on processing personal data can be found here. By continuing to use the site, you hereby confirm that you have been informed of the use of cookies by the HSE website and agree with our rules for processing personal data. You may disable cookies in your browser settings.

  • A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Digital methods of text analysis

2021/2022
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Humanities (Faculty of Computer Science, Economics, and Social Sciences)
Course type:
Elective course
When:
2 year, 1 module

Программа дисциплины

Аннотация

Курс «Цифровые технологии работы с текстами» направлен на формирование знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением. Задачи курса: изучить методологические и методические аспекты работы с документами в формате электронного текста; уметь создавать электронный текст как информационный ресурс и визуализировать его в различных форматах; изучить элементы гипертекста и его возможности для работы и представления текстовых данных; изучить методы, технологии и программное обеспечение для компьютеризированного анализа текстовых документов (языки глубокой разметки текстов, компьютеризированный контент-анализ). Подавляющее большинство данных исследований гуманитарных наук хранится в виде документов XML-TEI, TEI стала де-факто стандартной технологией в области цифровых гуманитарных наук. Цель курса – познакомить с практическими аспектами кодирования XML-документов, отмеченных в соответствии с рекомендациями TEI, а затем использовать эти документы, применяя другие технологии, такие как Xpath, CSS, XSLT и Xquery. В рамках курса будут рассмотрены основы корпусной лингвистики. Студенты получат ряд практических навыков от навыка сбора информации в корпусах до умения составлять упражнения с использованием корпусных данных. Студенты научатся пользоваться существующими корпусами русского и английского языков, освоят базовые методы корпусного преподавания, смогут экономить время и усилия, используя корпуса в повседневной работе. В рамках курса изучаются следующие разделы: Методология и методика работы с текстовыми источниками. Электронный текст как информационный ресурс; Гипертекст и его возможности для анализа текста; Технологии глубокой разметки XML-TEI; Компьютеризированный контент-анализ; Введение в кодирование текста XML-TEI. Способы представления документов в электронном виде; Структура документа. Основы разметки (SGML / XML). Кодирование документов. Текстовая разметка с использованием XML и TEI. Теги; Представление и преобразование документа XML-TEI. Xpath, CSS, XSLT и XQuery. Визуализация; Что такое «корпус»?; Возникновение и развитие корпусной лингвистики; Виды корпусов; Поиск информации в корпусе; Разметка корпусов; Исследование языка с помощью лингвистического корпуса: общие принципы; Исследование языка с помощью лингвистического корпуса: направления исследования и практическое применение результатов; Корпус и междисциплинарные исследования.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает методологические и методические аспекты работы с документами в формате электронного текста. Понимает разницу между форматами, их возможности и ограничения. Умеет делать разметку документов.
  • Создает электронные версии текстовых документы. Визуализирует тексты. Использует различные компьютеризированные методы анализа текстов, в т.ч. стилометрию.
  • Умеет создавать собственные, находить и использовать существующие корпуса. Применяет инструменты для анализа корпусов текстов.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Раздел 1. Модели электронного текста
  • Раздел 2. Корпусная лингвистика
  • Раздел 3. Публикация и анализ текстовых документов
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельная работа
  • неблокирующий Проект
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 1 модуль
    0.2 * Самостоятельная работа + 0.3 * Проект + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Грудева, Е. В. Корпусная лингвистика : учебное пособие / Е. В. Грудева. — 3-е изд. — Москва : ФЛИНТА, 2017. — 165 с. — ISBN 978-5-9765-1497-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/106859 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Базылев, В. Н. Наука о языке XXI века : справочник / В. Н. Базылев. — 2-е изд. — Москва : ФЛИНТА, 2016. — 135 с. — ISBN 978-5-9765-2543-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/76973 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937
  • Остроух А.В., Николаев А.Б. - Интеллектуальные информационные системы и технологии: монография - Издательство "Лань" - 2019 - 308с. - ISBN: 978-5-8114-3409-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/115518

Авторы

  • Клюев Никита Александрович