• A
  • A
  • A
  • ABC
  • ABC
  • ABC
  • А
  • А
  • А
  • А
  • А
Regular version of the site

Digital methods of text analysis

2021/2022
Academic Year
RUS
Instruction in Russian
4
ECTS credits
Delivered at:
Department of Humanities (Faculty of Social Sciences and Humanities (Perm))
Course type:
Elective course
When:
2 year, 1 module

Программа дисциплины

Аннотация

Курс «Цифровые технологии работы с текстами» направлен на формирование знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением. Задачи курса: изучить методологические и методические аспекты работы с документами в формате электронного текста; уметь создавать электронный текст как информационный ресурс и визуализировать его в различных форматах; изучить элементы гипертекста и его возможности для работы и представления текстовых данных; изучить методы, технологии и программное обеспечение для компьютеризированного анализа текстовых документов (языки глубокой разметки текстов, компьютеризированный контент-анализ). Подавляющее большинство данных исследований гуманитарных наук хранится в виде документов XML-TEI, TEI стала де-факто стандартной технологией в области цифровых гуманитарных наук. Цель курса – познакомить с практическими аспектами кодирования XML-документов, отмеченных в соответствии с рекомендациями TEI, а затем использовать эти документы, применяя другие технологии, такие как Xpath, CSS, XSLT и Xquery. В рамках курса будут рассмотрены основы корпусной лингвистики. Студенты получат ряд практических навыков от навыка сбора информации в корпусах до умения составлять упражнения с использованием корпусных данных. Студенты научатся пользоваться существующими корпусами русского и английского языков, освоят базовые методы корпусного преподавания, смогут экономить время и усилия, используя корпуса в повседневной работе. В рамках курса изучаются следующие разделы: Методология и методика работы с текстовыми источниками. Электронный текст как информационный ресурс; Гипертекст и его возможности для анализа текста; Технологии глубокой разметки XML-TEI; Компьютеризированный контент-анализ; Введение в кодирование текста XML-TEI. Способы представления документов в электронном виде; Структура документа. Основы разметки (SGML / XML). Кодирование документов. Текстовая разметка с использованием XML и TEI. Теги; Представление и преобразование документа XML-TEI. Xpath, CSS, XSLT и XQuery. Визуализация; Что такое «корпус»?; Возникновение и развитие корпусной лингвистики; Виды корпусов; Поиск информации в корпусе; Разметка корпусов; Исследование языка с помощью лингвистического корпуса: общие принципы; Исследование языка с помощью лингвистического корпуса: направления исследования и практическое применение результатов; Корпус и междисциплинарные исследования.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов знаний, умений и компетенций в области создания машиночитаемых версий исторических источников, научных и иных публикаций и других информационных ресурсов в формате электронного текста, организации, визуализации и анализа текстовых данных, в т.ч. использования стандартным и специальным программным обеспечением.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает методологические и методические аспекты работы с документами в формате электронного текста. Понимает разницу между форматами, их возможности и ограничения. Умеет делать разметку документов.
  • Умеет создавать собственные, находить и использовать существующие корпуса. Применяет инструменты для анализа корпусов текстов.
  • Создает электронные версии текстовых документы. Визуализирует тексты. Использует различные компьютеризированные методы анализа текстов, в т.ч. стилометрию.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Раздел 1. Модели электронного текста
    Тема 1. Что такое электронный текст. Модели текста, кодировки, форматы, гипертекст; методологические и методические аспекты работы с документами в формате электронного текста; гипертекст и его возможности для работы и представления текстовых данных; Тема 2. Языки глубокой разметки текстов. Логическая и визуальная разметка; XML как язык разметки и как формат обмена данными; TEI, практика кодирования XML-документов, отмеченных в соответствии с рекомендациями TEI для дальнейшего использования этих документов, знание технологий Xpath, CSS, XSLT и Xquery.
  • Раздел 2. Корпусная лингвистика
    Тема 3. Дальнее чтение. Корпуса. Подход и методы дальнего и пристального чтения. Брауновский и другие корпуса. Национальные корпуса. Google N-gram. Тема 4. Инструменты анализа корпусов и поиска информации в корпусе. Voyant Tool. SketchEngine.
  • Раздел 3. Публикация и анализ текстовых документов
    Тема 5. Цифровые издания. Понятие цифрового издания. Компьютерная археография. Стандарты описания и хранения. Рекомендации цифровых исследовательских инфраструктур. Тема 6. Контент-анализ текстов. Качественный и количественный анализ. Компьютеризированный контент-анализ. Технологии и программные средства для контент-анализа. Тема 7. Стилометрия. Понятие и методы стилометрии. Пакет Stylo. Примеры.
Элементы контроля

Элементы контроля

  • неблокирующий Самостоятельная работа
  • неблокирующий Проект
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • Промежуточная аттестация (1 модуль)
    0.3 * Проект + 0.2 * Самостоятельная работа + 0.5 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Грудева Е.В. - Корпусная лингвистика: учебное пособие - Издательство "ФЛИНТА" - 2017 - 165с. - ISBN: 978-5-9765-1497-3 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/106859

Рекомендуемая дополнительная литература

  • Базылев В.Н. - Наука о языке XXI века - Издательство "ФЛИНТА" - 2016 - 135с. - ISBN: 978-5-9765-2543-6 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/76973
  • Москвитин А.А. - Данные, информация, знания: методология, теория, технологии: монография - Издательство "Лань" - 2019 - 236с. - ISBN: 978-5-8114-3232-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/113937
  • Остроух А.В., Николаев А.Б. - Интеллектуальные информационные системы и технологии: монография - Издательство "Лань" - 2019 - 308с. - ISBN: 978-5-8114-3409-1 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/115518