• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Digital methods of text analysis

2021/2022
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Humanities (Faculty of Computer Science, Economics, and Social Sciences)
Course type:
Elective course
When:
2 year, 1 module

Программа дисциплины

Аннотация

Курс «Цифровые технологии работы с текстами» направлен на формирование знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением. Задачи курса: изучить методологические и методические аспекты работы с документами в формате электронного текста; уметь создавать электронный текст как информационный ресурс и визуализировать его в различных форматах; изучить элементы гипертекста и его возможности для работы и представления текстовых данных; изучить методы, технологии и программное обеспечение для компьютеризированного анализа текстовых документов (языки глубокой разметки текстов, компьютеризированный контент-анализ). Подавляющее большинство данных исследований гуманитарных наук хранится в виде документов XML-TEI, TEI стала де-факто стандартной технологией в области цифровых гуманитарных наук. Цель курса – познакомить с практическими аспектами кодирования XML-документов, отмеченных в соответствии с рекомендациями TEI, а затем использовать эти документы, применяя другие технологии, такие как Xpath, CSS, XSLT и Xquery. В рамках курса будут рассмотрены основы корпусной лингвистики. Студенты получат ряд практических навыков от навыка сбора информации в корпусах до умения составлять упражнения с использованием корпусных данных. Студенты научатся пользоваться существующими корпусами русского и английского языков, освоят базовые методы корпусного преподавания, смогут экономить время и усилия, используя корпуса в повседневной работе. В рамках курса изучаются следующие разделы: Методология и методика работы с текстовыми источниками. Электронный текст как информационный ресурс; Гипертекст и его возможности для анализа текста; Технологии глубокой разметки XML-TEI; Компьютеризированный контент-анализ; Введение в кодирование текста XML-TEI. Способы представления документов в электронном виде; Структура документа. Основы разметки (SGML / XML). Кодирование документов. Текстовая разметка с использованием XML и TEI. Теги; Представление и преобразование документа XML-TEI. Xpath, CSS, XSLT и XQuery. Визуализация; Что такое «корпус»?; Возникновение и развитие корпусной лингвистики; Виды корпусов; Поиск информации в корпусе; Разметка корпусов; Исследование языка с помощью лингвистического корпуса: общие принципы; Исследование языка с помощью лингвистического корпуса: направления исследования и практическое применение результатов; Корпус и междисциплинарные исследования.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает методологические и методические аспекты работы с документами в формате электронного текста. Понимает разницу между форматами, их возможности и ограничения. Умеет делать разметку документов.
  • Создает электронные версии текстовых документы. Визуализирует тексты. Использует различные компьютеризированные методы анализа текстов, в т.ч. стилометрию.
  • Умеет создавать собственные, находить и использовать существующие корпуса. Применяет инструменты для анализа корпусов текстов.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Раздел 1. Модели электронного текста
  • Раздел 2. Корпусная лингвистика
  • Раздел 3. Публикация и анализ текстовых документов
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельная работа
  • неблокирующий Проект
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2021/2022 учебный год 1 модуль
    0.2 * Самостоятельная работа + 0.3 * Проект + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Грудева, Е. В. Корпусная лингвистика : учебное пособие / Е. В. Грудева. — 3-е изд. — Москва : ФЛИНТА, 2017. — 165 с. — ISBN 978-5-9765-1497-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/106859 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Базылев, В. Н. Наука о языке XXI века : справочник / В. Н. Базылев. — 2-е изд. — Москва : ФЛИНТА, 2016. — 135 с. — ISBN 978-5-9765-2543-6. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/76973 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937
  • Остроух А.В., Николаев А.Б. - Интеллектуальные информационные системы и технологии: монография - Издательство "Лань" - 2019 - 308с. - ISBN: 978-5-8114-3409-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/115518