| Планируемые результаты обучения (Знать, Уметь, Владеть)
|
Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов.
- Задачи курса
- Освоение теоретических основ и методологии информационного анализа текста в контексте психолингвистических исследований, включая понимание принципов обработки естественного языка, статистического анализа текстовых корпусов.
- Развитие практических навыков работы с открытыми программными инструментами, особенно средой R и специализированными пакетами для текстовой аналитики (tidytext, quanteda, tm), а также освоение техник получения текстовых данных через MediaWiki API и другие открытые источники.
- Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора.
В результате изучения дисциплины студент должен:
- знать
- Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований
- Современные методы обработки естественного языка и компьютерной лингвистики
- Принципы работы с MediaWiki API и другими источниками текстовых данных
- Основы статистической обработки текстовых корпусов в среде R
- Психолингвистические подходы к анализу речи и текста.
- уметь
- Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация)
- Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr)
- Получать и обрабатывать текстовые данные через MediaWiki API
- Применять методы анализа тональности и настроений в текстах
- Проводить психолингвистический анализ текстовых данных
- Визуализировать результаты анализа текста (облака слов, графики частотности, сети).
- владеть
- Навыками программирования в среде R для решения задач текстовой аналитики
- Методиками интегрированного анализа больших текстовых корпусов
- Техниками извлечения психологической информации из текстовых данных
- Инструментами веб-аналитики текста и онлайн-сервисами
- Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий
|
| Содержание разделов курса
|
-
- Теоретические основы информационного анализа текста
- Введение в психолингвистические основы анализа текста.
- Современные подходы к компьютерной обработке естественного языка.
- Связь между психолингвистикой и информационным анализом текста.
- Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. : :Этические аспекты анализа текстовых данных.
- Сравнительный анализ различных подходов к обработке текста
- Работа с примерами психолингвистического анализа
- Обзор современных исследований в области текстовой аналитики
- Основы работы в среде R для анализа текста
- Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
- Введение в экосистему tidyverse для анализа данных.
- Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
- Основные структуры данных для хранения текста в R.
- Импорт и экспорт текстовых данных различных форматов.
- Предобработка и подготовка текстовых данных
- Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
- Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
- Получение текстовых данных через MediaWiki API
- Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
- Статистический анализ и визуализация текстовых данных
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
- Психолингвистические методы анализа и анализ тональности
- Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
- Анализ тональности и настроений: теоретические основы и практические методы.
- Словарные методы и машинное обучение в анализе тональности.
- Выявление неискренности и психоэмоционального напряжения в тексте.
- Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
- Интеграция количественных и качественных методов анализа.
|
| Видео запись
|
|
| Среды и средства, которые поддерживают учебный курс
|
R, VUE, VOYANT Tools, RAWGraphs, Formulabot Sentiment Analysis Tool
|
| Книги, на которых основывается учебный курс
|
Text Mining with R
|
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между психолингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля.
Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста
- Установка и настройка среды R и RStudio.
- Основы синтаксиса R и принципы tidy data.
- Введение в экосистему tidyverse для анализа данных.
- Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
- Основные структуры данных для хранения текста в R.
- Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
- Этапы предобработки текстовых данных.
- Токенизация: разбиение текста на слова, предложения, n-граммы.
- Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
- Работа со стоп-словами для русского и английского языков.
- Стемминг и лемматизация: принципы и инструменты.
- Создание корпусов и терм-документые матрицы.
- Обработка больших текстовых массивов.
- Введение в MediaWiki API: структура, возможности, ограничения.
- Основные методы получения содержимого страниц.
- Работа с различными форматами данных: wikitext, HTML, plain text.
- Использование пакетов httr и jsonlite для HTTP-запросов в R.
- Создание функций для автоматического извлечения текстов из Wikipedia.
- Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных
- Частотный анализ слов и n-грамм.
- Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
- Анализ коллокаций и совместной встречаемости слов.
- Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
- Сетевой анализ текстов и построение графов слов.
- Сравнительный анализ текстовых корпусов.
- Статистические тесты для текстовых данных
Психолингвистические методы анализа и анализ тональности
- Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
- Анализ тональности текста и настроений: теоретические основы и практические методы.
- Словарные методы и машинное обучение в анализе тональности.
- Выявление неискренности и психоэмоционального напряжения в тексте.
- Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
- Интеграция количественных и качественных методов анализа.