Программирование и лингвистические данные (syllabus): различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Нет описания правки
 
Строка 79: Строка 79:


== Лингвистические корпуса и методы их разметки ==
== Лингвистические корпуса и методы их разметки ==
== Предобработка и подготовка текстовых данных ==
=== Предобработка и подготовка текстовых данных ===


# Этапы предобработки текстовых данных.  
# Этапы предобработки текстовых данных.  
Строка 89: Строка 89:
# Обработка больших текстовых массивов.
# Обработка больших текстовых массивов.


 
== Работа с [[API]] ==
== Получение текстовых данных через [[MediaWiki API]]  ==
=== Получение текстовых данных через [[MediaWiki API]]  ===


#  Введение в MediaWiki API: структура, возможности, ограничения.  
#  Введение в MediaWiki API: структура, возможности, ограничения.  

Текущая версия от 08:27, 9 февраля 2026



Планируемые результаты обучения (Знать, Уметь, Владеть) Цель курса – формирование у студентов магистерской программы "Информатика и английский язык" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений.
Задачи курса
  • Освоение теоретических основ и методологии информационного анализа текста в, включая понимание принципов обработки естественного языка, статистического анализа текстовых корпусов.
  • Развитие практических навыков работы с открытыми программными инструментами, особенно средой R и специализированными пакетами для текстовой аналитики (tidytext, quanteda, tm), а также освоение техник получения текстовых данных через MediaWiki API и другие открытые источники.
  • Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских.

В результате изучения дисциплины студент должен:

знать
  1. Теоретические основы информационного анализа текста
  2. Современные методы обработки естественного языка и компьютерной лингвистики
  3. Принципы работы с MediaWiki API и другими источниками текстовых данных
  4. Основы статистической обработки текстовых корпусов в среде R
уметь
  1. Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация)
  2. Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr)
  3. Получать и обрабатывать текстовые данные через MediaWiki API
  4. Применять методы анализа тональности и настроений в текстах
  5. Проводить психолингвистический анализ текстовых данных
  6. Визуализировать результаты анализа текста (облака слов, графики частотности, сети).
владеть
  1. Навыками программирования в среде R для решения задач текстовой аналитики
  2. Методиками интегрированного анализа больших текстовых корпусов
  3. Инструментами веб-аналитики текста и онлайн-сервисами
Содержание разделов курса -
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между лингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. : :Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста
Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
Введение в экосистему tidyverse для анализа данных.
Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
Основные структуры данных для хранения текста в R.
Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных

Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных

Видео запись
Среды и средства, которые поддерживают учебный курс
Книги, на которых основывается учебный курс

Лингвистические данные и информатика

Современные подходы к компьютерной обработке естественного языка. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля.


Программирование на R для анализа лингвистических данных

Основы работы в среде R для анализа текста

  1. Установка и настройка среды R и RStudio.
  2. Основы синтаксиса R и принципы tidy data.
  3. Введение в экосистему tidyverse для анализа данных.
  4. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
  5. Основные структуры данных для хранения текста в R.
  6. Импорт и экспорт текстовых данных различных форматов.


 Description
RR — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Используется для обработки, анализа и визуализации данных
RStudioсвободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой.

Справочные материалы по R

 Description
APIs for social scientists: A collaborative reviewВ книге представлено множество API социальных сетей и основы их использования. В статье по этой книге собраны примеры API и особенности работы с ними. Код в книге - R
Big Data with RExploring, Visualizing, and Modeling Big Data with R
  • В образовании имеется огромное количество данных — от записей о студентах и наблюдений преподавателей до результатов тестов. Современные технологии, такие как распознавание лиц и биометрические сигналы, расширяют доступ к визуальной и аудиоинформации о студентах. Мультимодальная аналитика в образовательном тестировании и психометрике позволяет точнее оценивать знания учащихся, одновременно отслеживая их прогресс с помощью аналитики обучения. Анализ логов и времени реакции помогает понять уровень вовлеченности студентов, выявить списывание и наличие предварительных знаний по тестовым заданиям.
Learning analytics methods and tutorials: A practical guide using RМетоды учебной аналитики с использованием языка R - открытое руководство с многочисленными примерами и ссылками на образовательные датасеты
R for Data ScienceПодробное руководство по использованию языка R для обработки, модификации, визуализации и программировании данных
Text Mining with RКнига даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа.

Лингвистические корпуса и методы их разметки

Предобработка и подготовка текстовых данных

  1. Этапы предобработки текстовых данных.
  2. Токенизация: разбиение текста на слова, предложения, n-граммы.
  3. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
  4. Работа со стоп-словами для русского и английского языков.
  5. Стемминг и лемматизация: принципы и инструменты.
  6. Создание корпусов и терм-документые матрицы.
  7. Обработка больших текстовых массивов.

Работа с API

Получение текстовых данных через MediaWiki API

  1. Введение в MediaWiki API: структура, возможности, ограничения.
  2. Основные методы получения содержимого страниц.
  3. Работа с различными форматами данных: wikitext, HTML, plain text.
  4. Использование пакетов httr и jsonlite для HTTP-запросов в R.
  5. Создание функций для автоматического извлечения текстов из Wikipedia.
  6. Обработка метаданных и структурированной информации.


Примеры уроков с использованием MediaWiki API

Данные из Википедии

Урок по анализу данных с использованием методов машинного обучения

Данные из Digida

Статистический анализ и визуализация лингвистических данных

  1. Частотный анализ слов и n-грамм.
  2. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
  3. Анализ коллокаций и совместной встречаемости слов.
  4. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
  5. Сетевой анализ текстов и построение графов слов.
  6. Сравнительный анализ текстовых корпусов.
  7. Статистические тесты для текстовых данных

Психолингвистические методы анализа и анализ тональности

  1. Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
  2. Анализ тональности текста и настроений: теоретические основы и практические методы.
  3. Словарные методы и машинное обучение в анализе тональности.
  4. Выявление неискренности и психоэмоционального напряжения в тексте.
  5. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
  6. Интеграция количественных и качественных методов анализа.

Автоматизация анализа