Программирование и лингвистические данные (syllabus): различия между версиями

Версия от 08:53, 10 февраля 2026

Планируемые результаты обучения (Знать, Уметь, Владеть)	Цель курса – формирование у студентов магистерской программы "Информатика и английский язык" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений. Задачи курса Освоение теоретических основ и методологии информационного анализа текста в, включая понимание принципов обработки естественного языка, статистического анализа текстовых корпусов. Развитие практических навыков работы с открытыми программными инструментами, особенно средой R и специализированными пакетами для текстовой аналитики (tidytext, quanteda, tm), а также освоение техник получения текстовых данных через MediaWiki API и другие открытые источники. Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских. В результате изучения дисциплины студент должен: знать Теоретические основы информационного анализа текста Современные методы обработки естественного языка и компьютерной лингвистики Принципы работы с MediaWiki API и другими источниками текстовых данных Основы статистической обработки текстовых корпусов в среде R уметь Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация) Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr) Получать и обрабатывать текстовые данные через MediaWiki API Применять методы анализа тональности и настроений в текстах Проводить психолингвистический анализ текстовых данных Визуализировать результаты анализа текста (облака слов, графики частотности, сети). владеть Навыками программирования в среде R для решения задач текстовой аналитики Методиками интегрированного анализа больших текстовых корпусов Инструментами веб-аналитики текста и онлайн-сервисами
Содержание разделов курса	- Теоретические основы информационного анализа текста Введение в психолингвистические основы анализа текста. Современные подходы к компьютерной обработке естественного языка. Связь между лингвистикой и информационным анализом текста. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. : :Этические аспекты анализа текстовых данных. Сравнительный анализ различных подходов к обработке текста Работа с примерами психолингвистического анализа Обзор современных исследований в области текстовой аналитики Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов. Предобработка и подготовка текстовых данных Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов. Получение текстовых данных через MediaWiki API Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации. Статистический анализ и визуализация текстовых данных Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
Видео запись
Среды и средства, которые поддерживают учебный курс	R, OpenRefine, VOYANT Tools, MediaWiki, MediaWiki API
Книги, на которых основывается учебный курс	APIs for social scientists: A collaborative review, Text Mining with R: A Tidy Approach

Для студентов группы Категория:ИНФА-221

Последовательность действий (PlantUML)

Лингвистические данные и информатика

Современные подходы к компьютерной обработке естественного языка. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля.

Программирование на R для анализа лингвистических данных

Основы работы в среде R для анализа текста

Установка и настройка среды R и RStudio.
Основы синтаксиса R и принципы tidy data.
Введение в экосистему tidyverse для анализа данных.
Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
Основные структуры данных для хранения текста в R.
Импорт и экспорт текстовых данных различных форматов.

	Description
R	R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Используется для обработки, анализа и визуализации данных
RStudio	свободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой.

Справочные материалы по R

	Description
APIs for social scientists: A collaborative review	В книге представлено множество API социальных сетей и основы их использования. В статье по этой книге собраны примеры API и особенности работы с ними. Код в книге - R
Big Data with R	Exploring, Visualizing, and Modeling Big Data with R В образовании имеется огромное количество данных — от записей о студентах и наблюдений преподавателей до результатов тестов. Современные технологии, такие как распознавание лиц и биометрические сигналы, расширяют доступ к визуальной и аудиоинформации о студентах. Мультимодальная аналитика в образовательном тестировании и психометрике позволяет точнее оценивать знания учащихся, одновременно отслеживая их прогресс с помощью аналитики обучения. Анализ логов и времени реакции помогает понять уровень вовлеченности студентов, выявить списывание и наличие предварительных знаний по тестовым заданиям.
Learning analytics methods and tutorials: A practical guide using R	Методы учебной аналитики с использованием языка R - открытое руководство с многочисленными примерами и ссылками на образовательные датасеты
R for Data Science
Text Mining with R	Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа.

Лингвистические корпуса и методы их разметки

Предобработка и подготовка текстовых данных

Этапы предобработки текстовых данных.
Токенизация: разбиение текста на слова, предложения, n-граммы.
Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
Работа со стоп-словами для русского и английского языков.
Стемминг и лемматизация: принципы и инструменты.
Создание корпусов и терм-документые матрицы.
Обработка больших текстовых массивов.

Работа с API

Получение текстовых данных через MediaWiki API

Введение в MediaWiki API: структура, возможности, ограничения.
Основные методы получения содержимого страниц.
Работа с различными форматами данных: wikitext, HTML, plain text.
Использование пакетов httr и jsonlite для HTTP-запросов в R.
Создание функций для автоматического извлечения текстов из Wikipedia.
Обработка метаданных и структурированной информации.

Примеры уроков с использованием MediaWiki API

Данные из Википедии

Урок по анализу данных с использованием методов машинного обучения

Данные из Digida

Как извлечь данные из категории Digida

Статистический анализ и визуализация лингвистических данных

Частотный анализ слов и n-грамм.
Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
Анализ коллокаций и совместной встречаемости слов.
Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
Сетевой анализ текстов и построение графов слов.
Сравнительный анализ текстовых корпусов.
Статистические тесты для текстовых данных

Психолингвистические методы анализа и анализ тональности

Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
Анализ тональности текста и настроений: теоретические основы и практические методы.
Словарные методы и машинное обучение в анализе тональности.
Выявление неискренности и психоэмоционального напряжения в тексте.
Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
Интеграция количественных и качественных методов анализа.

Автоматизация анализа

Интеграция R, Lua, MediaWiki API

Самостоятельные индивидуальные или парные работы студентов

В категории - Категория:CompLing Works

@@ Строка 48: / Строка 48: @@
 }}
 * Для студентов группы [[:Категория:ИНФА-221]]
+== Последовательность действий ([[PlantUML]]) ==
+<uml>
+@startuml
+skinparam NoteBackgroundColor tan
+skinparam backgroundColor white
+skinparam activity {
+  BackgroundColor lightblue
+  BorderColor navy
+}
+start
+:Learning outcomes;\n(Компетенции);
+note right
+C1: Анализ лингвистических данных
+C2: Программирование в R
+C3: Работа с корпусами
+end note
+:Ключевые понятия;\n(Виды данных);
+note left
+Сырые тексты
+Токенизированные
+Морфология
+Синтаксис
+Семантика
+Метаданные
+Типы корпусов
+end note
+:Ресурсы;(Книги, сайты);
+note right
+Text Mining with R
+Digida.mgpu.ru
+Русский нац. корпус
+end note
+:Инструменты;\n(Выбор);
+note right
+Voyant Tools
+OpenRefine
+MediaWiki API
+end note
+:Languages;\n(R + GREL);
+note right
+Основной: R (tidyverse)
+Доп: GREL в OpenRefine
+end note
+partition "Основной поток" {
+  :1. Корпус из digida\n(MediaWiki API);
+  :2. Очистка\n(OpenRefine);
+  fork
+    :Voyant: Визуализация;
+  fork again
+    :3. Анализ в R\n(Статистика + ggplot2);
+  end fork
+  :4. Мини-проект\n(CompLing Student Works);
+}
+:Learning outputs;\n(Результаты обучения);
+note left
+Интерактивная SMW-страница
+R-скрипт + Voyant
+Анализ корпуса
+Категория проектов
+end note
+if (Достигнуты ли результаты?) then (нет)
+  :Learning Outcomes\nНе достигнуты;
+  :Провал! ;
+  stop
+else (да)
+  :Learning Outcomes\nДостигнуты;
+endif
+stop
+@enduml
+</uml>
 == Лингвистические данные и информатика ==

Аноним

Поиск

Программирование и лингвистические данные (syllabus): различия между версиями

Пространства имён

Ещё

Действия на странице

Версия от 08:53, 10 февраля 2026

Содержание

Последовательность действий (PlantUML)

Лингвистические данные и информатика

Программирование на R для анализа лингвистических данных

Основы работы в среде R для анализа текста

Справочные материалы по R

Лингвистические корпуса и методы их разметки

Предобработка и подготовка текстовых данных

Работа с API

Получение текстовых данных через MediaWiki API

Примеры уроков с использованием MediaWiki API

Данные из Википедии

Данные из Digida

Статистический анализ и визуализация лингвистических данных

Психолингвистические методы анализа и анализ тональности

Автоматизация анализа

Самостоятельные индивидуальные или парные работы студентов

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Программирование и лингвистические данные (syllabus): различия между версиями

Версия от 08:53, 10 февраля 2026

Последовательность действий (PlantUML)

Лингвистические данные и информатика

Программирование на R для анализа лингвистических данных

Основы работы в среде R для анализа текста

Справочные материалы по R

Лингвистические корпуса и методы их разметки

Предобработка и подготовка текстовых данных

Работа с API

Получение текстовых данных через MediaWiki API

Примеры уроков с использованием MediaWiki API

Данные из Википедии

Данные из Digida

Статистический анализ и визуализация лингвистических данных

Психолингвистические методы анализа и анализ тональности

Автоматизация анализа

Самостоятельные индивидуальные или парные работы студентов

Навигация

Вики-инструменты

Инструменты для страниц

Категории