Методы информационного анализа текста (syllabus) 2025: различия между версиями
Patarakin (обсуждение | вклад) Нет описания правки |
Patarakin (обсуждение | вклад) Нет описания правки |
||
| Строка 12: | Строка 12: | ||
# Основы статистической обработки текстовых корпусов в среде R | # Основы статистической обработки текстовых корпусов в среде R | ||
# Психолингвистические подходы к анализу речи и текста. | # Психолингвистические подходы к анализу речи и текста. | ||
уметь: | ; уметь: | ||
# Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация) | # Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация) | ||
# Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr) | # Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr) | ||
| Строка 19: | Строка 19: | ||
# Проводить психолингвистический анализ текстовых данных | # Проводить психолингвистический анализ текстовых данных | ||
# Визуализировать результаты анализа текста (облака слов, графики частотности, сети). | # Визуализировать результаты анализа текста (облака слов, графики частотности, сети). | ||
владеть: | ; владеть: | ||
# Навыками программирования в среде R для решения задач текстовой аналитики | # Навыками программирования в среде R для решения задач текстовой аналитики | ||
# Методиками интегрированного анализа больших текстовых корпусов | # Методиками интегрированного анализа больших текстовых корпусов | ||
Версия от 09:09, 1 сентября 2025
| Планируемые результаты обучения (Знать, Уметь, Владеть) | Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов.
В результате изучения дисциплины студент должен:
|
|---|---|
| Содержание разделов курса | -
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
|
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | R, VUE |
| Книги, на которых основывается учебный курс | Text Mining with R |
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между психолингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
Психолингвистические методы анализа и анализ тональности
Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения. Анализ тональности и настроений: теоретические основы и практические методы. Словарные методы и машинное обучение в анализе тональности. Выявление неискренности и психоэмоционального напряжения в тексте. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик. Интеграция количественных и качественных методов анализа.
