Программирование и лингвистические данные (syllabus): различия между версиями
Материал из Поле цифровой дидактики
Patarakin (обсуждение | вклад) |
Patarakin (обсуждение | вклад) Нет описания правки |
||
| Строка 54: | Строка 54: | ||
== Программирование на [[R]] для анализа лингвистических данных == | == Программирование на [[R]] для анализа лингвистических данных == | ||
= | ===Основы работы в среде R для анализа текста === | ||
== Основы работы в среде R для анализа текста == | |||
# Установка и настройка среды [[R]] и [[RStudio]]. | # Установка и настройка среды [[R]] и [[RStudio]]. | ||
# Основы синтаксиса R и принципы tidy data. | # Основы синтаксиса R и принципы tidy data. | ||
| Строка 84: | Строка 78: | ||
| ?Description }} | | ?Description }} | ||
== Лингвистические корпуса и методы их разметки == | |||
== Предобработка и подготовка текстовых данных == | == Предобработка и подготовка текстовых данных == | ||
| Строка 93: | Строка 88: | ||
# Создание корпусов и [[терм-документная матрица|терм-документые матрицы]]. | # Создание корпусов и [[терм-документная матрица|терм-документые матрицы]]. | ||
# Обработка больших текстовых массивов. | # Обработка больших текстовых массивов. | ||
== Получение текстовых данных через [[MediaWiki API]] == | == Получение текстовых данных через [[MediaWiki API]] == | ||
| Строка 110: | Строка 106: | ||
==== Данные из Digida ==== | ==== Данные из Digida ==== | ||
[[Как извлечь данные из категории Digida]] | * [[Как извлечь данные из категории Digida]] | ||
== Статистический анализ и визуализация | == Статистический анализ и визуализация лингвистических данных == | ||
# Частотный анализ слов и n-грамм. | # Частотный анализ слов и n-грамм. | ||
| Строка 122: | Строка 118: | ||
# Статистические тесты для текстовых данных | # Статистические тесты для текстовых данных | ||
== Психолингвистические методы анализа и анализ тональности == | === Психолингвистические методы анализа и анализ тональности === | ||
# Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения. | # Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения. | ||
| Строка 130: | Строка 126: | ||
# Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик. | # Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик. | ||
# Интеграция количественных и качественных методов анализа. | # Интеграция количественных и качественных методов анализа. | ||
== Автоматизация анализа == | |||
Версия от 08:25, 9 февраля 2026
| Планируемые результаты обучения (Знать, Уметь, Владеть) | Цель курса – формирование у студентов магистерской программы "Информатика и английский язык" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений.
В результате изучения дисциплины студент должен:
|
|---|---|
| Содержание разделов курса | -
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных |
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | |
| Книги, на которых основывается учебный курс |
Лингвистические данные и информатика
Современные подходы к компьютерной обработке естественного языка. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля.
Программирование на R для анализа лингвистических данных
Основы работы в среде R для анализа текста
- Установка и настройка среды R и RStudio.
- Основы синтаксиса R и принципы tidy data.
- Введение в экосистему tidyverse для анализа данных.
- Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
- Основные структуры данных для хранения текста в R.
- Импорт и экспорт текстовых данных различных форматов.
| Description | |
|---|---|
| R | R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Используется для обработки, анализа и визуализации данных |
| RStudio | свободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой. |
Справочные материалы по R
| Description | |
|---|---|
| APIs for social scientists: A collaborative review | В книге представлено множество API социальных сетей и основы их использования. В статье по этой книге собраны примеры API и особенности работы с ними. Код в книге - R |
| Big Data with R | Exploring, Visualizing, and Modeling Big Data with R
|
| Learning analytics methods and tutorials: A practical guide using R | Методы учебной аналитики с использованием языка R - открытое руководство с многочисленными примерами и ссылками на образовательные датасеты |
| R for Data Science | Подробное руководство по использованию языка R для обработки, модификации, визуализации и программировании данных |
| Text Mining with R | Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа. |
Лингвистические корпуса и методы их разметки
Предобработка и подготовка текстовых данных
- Этапы предобработки текстовых данных.
- Токенизация: разбиение текста на слова, предложения, n-граммы.
- Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
- Работа со стоп-словами для русского и английского языков.
- Стемминг и лемматизация: принципы и инструменты.
- Создание корпусов и терм-документые матрицы.
- Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
- Введение в MediaWiki API: структура, возможности, ограничения.
- Основные методы получения содержимого страниц.
- Работа с различными форматами данных: wikitext, HTML, plain text.
- Использование пакетов httr и jsonlite для HTTP-запросов в R.
- Создание функций для автоматического извлечения текстов из Wikipedia.
- Обработка метаданных и структурированной информации.
Примеры уроков с использованием MediaWiki API
Данные из Википедии
Урок по анализу данных с использованием методов машинного обучения
Данные из Digida
Статистический анализ и визуализация лингвистических данных
- Частотный анализ слов и n-грамм.
- Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
- Анализ коллокаций и совместной встречаемости слов.
- Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
- Сетевой анализ текстов и построение графов слов.
- Сравнительный анализ текстовых корпусов.
- Статистические тесты для текстовых данных
Психолингвистические методы анализа и анализ тональности
- Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
- Анализ тональности текста и настроений: теоретические основы и практические методы.
- Словарные методы и машинное обучение в анализе тональности.
- Выявление неискренности и психоэмоционального напряжения в тексте.
- Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
- Интеграция количественных и качественных методов анализа.
