Методы информационного анализа текста (syllabus) 2025: различия между версиями

Версия от 19:06, 27 августа 2025

Планируемые результаты обучения (Знать, Уметь, Владеть)	Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов. Задачи курса Освоение теоретических основ и методологии информационного анализа текста в контексте психолингвистических исследований, включая понимание принципов обработки естественного языка, статистического анализа текстовых корпусов. Развитие практических навыков работы с открытыми программными инструментами, особенно средой R и специализированными пакетами для текстовой аналитики (tidytext, quanteda, tm), а также освоение техник получения текстовых данных через MediaWiki API и другие открытые источники. Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора. В результате изучения дисциплины студент должен: знать Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований Современные методы обработки естественного языка и компьютерной лингвистики Принципы работы с MediaWiki API и другими источниками текстовых данных Основы статистической обработки текстовых корпусов в среде R Психолингвистические подходы к анализу речи и текста. уметь: Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация) Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr) Получать и обрабатывать текстовые данные через MediaWiki API Применять методы анализа тональности и настроений в текстах Проводить психолингвистический анализ текстовых данных Визуализировать результаты анализа текста (облака слов, графики частотности, сети). владеть: Навыками программирования в среде R для решения задач текстовой аналитики Методиками интегрированного анализа больших текстовых корпусов Техниками извлечения психологической информации из текстовых данных Инструментами веб-аналитики текста и онлайн-сервисами Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий
Содержание разделов курса	- Теоретические основы информационного анализа текста Введение в психолингвистические основы анализа текста. Современные подходы к компьютерной обработке естественного языка. Связь между психолингвистикой и информационным анализом текста. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. : :Этические аспекты анализа текстовых данных. Сравнительный анализ различных подходов к обработке текста Работа с примерами психолингвистического анализа Обзор современных исследований в области текстовой аналитики Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов. Предобработка и подготовка текстовых данных Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов. Получение текстовых данных через MediaWiki API Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации. Статистический анализ и визуализация текстовых данных Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных Психолингвистические методы анализа и анализ тональности Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения. Анализ тональности и настроений: теоретические основы и практические методы. Словарные методы и машинное обучение в анализе тональности. Выявление неискренности и психоэмоционального напряжения в тексте. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик. Интеграция количественных и качественных методов анализа.
Видео запись
Среды и средства, которые поддерживают учебный курс	R, VUE
Книги, на которых основывается учебный курс

Теоретические основы информационного анализа текста

Введение в психолингвистические основы анализа текста.

Современные подходы к компьютерной обработке естественного языка.

Связь между психолингвистикой и информационным анализом текста.

Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.

Сравнительный анализ различных подходов к обработке текста

Работа с примерами психолингвистического анализа

Обзор современных исследований в области текстовой аналитики

Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.

Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.

Предобработка и подготовка текстовых данных

Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.

Получение текстовых данных через MediaWiki API

Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.

Статистический анализ и визуализация текстовых данных

Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных

Психолингвистические методы анализа и анализ тональности

Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения. Анализ тональности и настроений: теоретические основы и практические методы. Словарные методы и машинное обучение в анализе тональности. Выявление неискренности и психоэмоционального напряжения в тексте. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик. Интеграция количественных и качественных методов анализа.

@@ Строка 6: / Строка 6: @@
 * Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора.
 В результате изучения дисциплины студент должен:
-; знать:
+; знать
 # Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований
 # Современные методы обработки естественного языка и компьютерной лингвистики
@@ Строка 25: / Строка 25: @@
 # Инструментами веб-аналитики текста и онлайн-сервисами
 # Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий
-|Description=; Теоретические основы информационного анализа текста
+|Description= -
+; Теоретические основы информационного анализа текста
 : Введение в психолингвистические основы анализа текста.
 : Современные подходы к компьютерной обработке естественного языка.
@@ Строка 36: / Строка 37: @@
 : Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
 : Введение в экосистему tidyverse для анализа данных.
-: Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. : Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.
+: Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
-Предобработка и подготовка текстовых данных	Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
+: Основные структуры данных для хранения текста в R.
+: Импорт и экспорт текстовых данных различных форматов.
+; Предобработка и подготовка текстовых данных
+: Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
+: Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
 ; Получение текстовых данных через MediaWiki API
 : Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
@@ Строка 52: / Строка 57: @@
 }}
 == Теоретические основы информационного анализа текста	==
-Введение в психолингвистические основы анализа текста. Современные подходы к компьютерной обработке естественного языка. Связь между психолингвистикой и информационным анализом текста. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.
+Введение в психолингвистические основы анализа текста.
+Современные подходы к компьютерной обработке естественного языка.
+Связь между психолингвистикой и информационным анализом текста.
+Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля.
+Этические аспекты анализа текстовых данных.
 == Сравнительный анализ различных подходов к обработке текста ==
 Работа с примерами психолингвистического анализа
 Обзор современных исследований в области текстовой аналитики
-Основы работы в среде R для анализа текста	Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.
-Предобработка и подготовка текстовых данных	Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. [[Стемминг]] и [[лемматизация]]: принципы и инструменты. Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.
+Основы работы в среде R для анализа текста	Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
+Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
+Основные структуры данных для хранения текста в R.
+Импорт и экспорт текстовых данных различных форматов.
+== Предобработка и подготовка текстовых данных ==
+Этапы предобработки текстовых данных.
+[[Токенизация]]: разбиение текста на слова, предложения, n-граммы.
+[[Нормализация текста]]: приведение к нижнему регистру, удаление пунктуации и специальных символов.
+Работа со стоп-словами для русского и английского языков.
+[[Стемминг]] и [[лемматизация]]: принципы и инструменты.
+Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.
 == Получение текстовых данных через MediaWiki API ==
-Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
+Введение в [[MediaWiki API]]: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
 == Статистический анализ и визуализация текстовых данных	==
-Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
+Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: [[TF-IDF]], взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
 == Психолингвистические методы анализа и анализ тональности	==

Аноним

Поиск

Методы информационного анализа текста (syllabus) 2025: различия между версиями

Пространства имён

Ещё

Действия на странице

Версия от 19:06, 27 августа 2025

Содержание

Теоретические основы информационного анализа текста

Сравнительный анализ различных подходов к обработке текста

Предобработка и подготовка текстовых данных

Получение текстовых данных через MediaWiki API

Статистический анализ и визуализация текстовых данных

Психолингвистические методы анализа и анализ тональности

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Методы информационного анализа текста (syllabus) 2025: различия между версиями

Версия от 19:06, 27 августа 2025

Теоретические основы информационного анализа текста

Сравнительный анализ различных подходов к обработке текста

Предобработка и подготовка текстовых данных

Получение текстовых данных через MediaWiki API

Статистический анализ и визуализация текстовых данных

Психолингвистические методы анализа и анализ тональности

Навигация

Вики-инструменты

Инструменты для страниц

Категории