Методы информационного анализа текста (syllabus) 2025: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «{{Curriculum |Learning_outcomes=Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием...»
 
Нет описания правки
Строка 6: Строка 6:
* Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора.
* Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора.
В результате изучения дисциплины студент должен:
В результате изучения дисциплины студент должен:
; знать:
; знать
# Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований
# Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований
# Современные методы обработки естественного языка и компьютерной лингвистики
# Современные методы обработки естественного языка и компьютерной лингвистики
Строка 25: Строка 25:
# Инструментами веб-аналитики текста и онлайн-сервисами
# Инструментами веб-аналитики текста и онлайн-сервисами
# Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий
# Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий
|Description=; Теоретические основы информационного анализа текста
|Description= -
; Теоретические основы информационного анализа текста
: Введение в психолингвистические основы анализа текста.  
: Введение в психолингвистические основы анализа текста.  
: Современные подходы к компьютерной обработке естественного языка.  
: Современные подходы к компьютерной обработке естественного языка.  
Строка 36: Строка 37:
: Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.  
: Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.  
: Введение в экосистему tidyverse для анализа данных.  
: Введение в экосистему tidyverse для анализа данных.  
: Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. : Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.
: Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.  
Предобработка и подготовка текстовых данных Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
: Основные структуры данных для хранения текста в R.  
: Импорт и экспорт текстовых данных различных форматов.
; Предобработка и подготовка текстовых данных
: Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.  
: Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
; Получение текстовых данных через MediaWiki API
; Получение текстовых данных через MediaWiki API
: Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.  
: Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.  
Строка 52: Строка 57:
}}
}}
== Теоретические основы информационного анализа текста ==
== Теоретические основы информационного анализа текста ==
Введение в психолингвистические основы анализа текста. Современные подходы к компьютерной обработке естественного языка. Связь между психолингвистикой и информационным анализом текста. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.
Введение в психолингвистические основы анализа текста.  
 
Современные подходы к компьютерной обработке естественного языка.  
 
Связь между психолингвистикой и информационным анализом текста.  
 
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля.  
Этические аспекты анализа текстовых данных.


== Сравнительный анализ различных подходов к обработке текста ==
== Сравнительный анализ различных подходов к обработке текста ==
Работа с примерами психолингвистического анализа
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.
 
Предобработка и подготовка текстовых данных Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. [[Стемминг]] и [[лемматизация]]: принципы и инструменты. Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.
Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.  
 
Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.  
Основные структуры данных для хранения текста в R.  
Импорт и экспорт текстовых данных различных форматов.
 
== Предобработка и подготовка текстовых данных ==
Этапы предобработки текстовых данных.  
[[Токенизация]]: разбиение текста на слова, предложения, n-граммы.  
[[Нормализация текста]]: приведение к нижнему регистру, удаление пунктуации и специальных символов.  
Работа со стоп-словами для русского и английского языков.  
[[Стемминг]] и [[лемматизация]]: принципы и инструменты.  
Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.




== Получение текстовых данных через MediaWiki API ==
== Получение текстовых данных через MediaWiki API ==


Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.  
Введение в [[MediaWiki API]]: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.  


== Статистический анализ и визуализация текстовых данных ==
== Статистический анализ и визуализация текстовых данных ==
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: [[TF-IDF]], взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных


== Психолингвистические методы анализа и анализ тональности ==
== Психолингвистические методы анализа и анализ тональности ==

Версия от 19:06, 27 августа 2025



Планируемые результаты обучения (Знать, Уметь, Владеть) Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов.
Задачи курса
  • Освоение теоретических основ и методологии информационного анализа текста в контексте психолингвистических исследований, включая понимание принципов обработки естественного языка, статистического анализа текстовых корпусов.
  • Развитие практических навыков работы с открытыми программными инструментами, особенно средой R и специализированными пакетами для текстовой аналитики (tidytext, quanteda, tm), а также освоение техник получения текстовых данных через MediaWiki API и другие открытые источники.
  • Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора.

В результате изучения дисциплины студент должен:

знать
  1. Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований
  2. Современные методы обработки естественного языка и компьютерной лингвистики
  3. Принципы работы с MediaWiki API и другими источниками текстовых данных
  4. Основы статистической обработки текстовых корпусов в среде R
  5. Психолингвистические подходы к анализу речи и текста.

уметь:

  1. Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация)
  2. Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr)
  3. Получать и обрабатывать текстовые данные через MediaWiki API
  4. Применять методы анализа тональности и настроений в текстах
  5. Проводить психолингвистический анализ текстовых данных
  6. Визуализировать результаты анализа текста (облака слов, графики частотности, сети).

владеть:

  1. Навыками программирования в среде R для решения задач текстовой аналитики
  2. Методиками интегрированного анализа больших текстовых корпусов
  3. Техниками извлечения психологической информации из текстовых данных
  4. Инструментами веб-аналитики текста и онлайн-сервисами
  5. Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий
Содержание разделов курса -
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между психолингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. : :Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста
Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
Введение в экосистему tidyverse для анализа данных.
Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
Основные структуры данных для хранения текста в R.
Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных

Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных

Психолингвистические методы анализа и анализ тональности
Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
Анализ тональности и настроений: теоретические основы и практические методы.
Словарные методы и машинное обучение в анализе тональности.
Выявление неискренности и психоэмоционального напряжения в тексте.
Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
Интеграция количественных и качественных методов анализа.
Видео запись
Среды и средства, которые поддерживают учебный курс R, VUE
Книги, на которых основывается учебный курс

Теоретические основы информационного анализа текста

Введение в психолингвистические основы анализа текста.

Современные подходы к компьютерной обработке естественного языка.

Связь между психолингвистикой и информационным анализом текста.

Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.

Сравнительный анализ различных подходов к обработке текста

Работа с примерами психолингвистического анализа

Обзор современных исследований в области текстовой аналитики

Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.

Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.

Предобработка и подготовка текстовых данных

Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.


Получение текстовых данных через MediaWiki API

Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.

Статистический анализ и визуализация текстовых данных

Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных

Психолингвистические методы анализа и анализ тональности

Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения. Анализ тональности и настроений: теоретические основы и практические методы. Словарные методы и машинное обучение в анализе тональности. Выявление неискренности и психоэмоционального напряжения в тексте. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик. Интеграция количественных и качественных методов анализа.