Методы информационного анализа текста (syllabus) 2025: различия между версиями
Patarakin (обсуждение | вклад) Новая страница: «{{Curriculum |Learning_outcomes=Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием...» |
Patarakin (обсуждение | вклад) Нет описания правки |
||
| Строка 6: | Строка 6: | ||
* Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора. | * Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора. | ||
В результате изучения дисциплины студент должен: | В результате изучения дисциплины студент должен: | ||
; знать | ; знать | ||
# Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований | # Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований | ||
# Современные методы обработки естественного языка и компьютерной лингвистики | # Современные методы обработки естественного языка и компьютерной лингвистики | ||
| Строка 25: | Строка 25: | ||
# Инструментами веб-аналитики текста и онлайн-сервисами | # Инструментами веб-аналитики текста и онлайн-сервисами | ||
# Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий | # Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий | ||
|Description=; Теоретические основы информационного анализа текста | |Description= - | ||
; Теоретические основы информационного анализа текста | |||
: Введение в психолингвистические основы анализа текста. | : Введение в психолингвистические основы анализа текста. | ||
: Современные подходы к компьютерной обработке естественного языка. | : Современные подходы к компьютерной обработке естественного языка. | ||
| Строка 36: | Строка 37: | ||
: Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. | : Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. | ||
: Введение в экосистему tidyverse для анализа данных. | : Введение в экосистему tidyverse для анализа данных. | ||
: Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. : Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов. | : Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. | ||
Предобработка и подготовка текстовых данных Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов. | : Основные структуры данных для хранения текста в R. | ||
: Импорт и экспорт текстовых данных различных форматов. | |||
; Предобработка и подготовка текстовых данных | |||
: Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. | |||
: Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов. | |||
; Получение текстовых данных через MediaWiki API | ; Получение текстовых данных через MediaWiki API | ||
: Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации. | : Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации. | ||
| Строка 52: | Строка 57: | ||
}} | }} | ||
== Теоретические основы информационного анализа текста == | == Теоретические основы информационного анализа текста == | ||
Введение в психолингвистические основы анализа текста. Современные подходы к компьютерной обработке естественного языка. Связь между психолингвистикой и информационным анализом текста. Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных. | Введение в психолингвистические основы анализа текста. | ||
Современные подходы к компьютерной обработке естественного языка. | |||
Связь между психолингвистикой и информационным анализом текста. | |||
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. | |||
Этические аспекты анализа текстовых данных. | |||
== Сравнительный анализ различных подходов к обработке текста == | == Сравнительный анализ различных подходов к обработке текста == | ||
Работа с примерами психолингвистического анализа | Работа с примерами психолингвистического анализа | ||
Обзор современных исследований в области текстовой аналитики | Обзор современных исследований в области текстовой аналитики | ||
Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов. | |||
Предобработка и подготовка текстовых данных Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. [[Стемминг]] и [[лемматизация]]: принципы и инструменты. Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов. | Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data. | ||
Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. | |||
Основные структуры данных для хранения текста в R. | |||
Импорт и экспорт текстовых данных различных форматов. | |||
== Предобработка и подготовка текстовых данных == | |||
Этапы предобработки текстовых данных. | |||
[[Токенизация]]: разбиение текста на слова, предложения, n-граммы. | |||
[[Нормализация текста]]: приведение к нижнему регистру, удаление пунктуации и специальных символов. | |||
Работа со стоп-словами для русского и английского языков. | |||
[[Стемминг]] и [[лемматизация]]: принципы и инструменты. | |||
Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов. | |||
== Получение текстовых данных через MediaWiki API == | == Получение текстовых данных через MediaWiki API == | ||
Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации. | Введение в [[MediaWiki API]]: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации. | ||
== Статистический анализ и визуализация текстовых данных == | == Статистический анализ и визуализация текстовых данных == | ||
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных | Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: [[TF-IDF]], взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных | ||
== Психолингвистические методы анализа и анализ тональности == | == Психолингвистические методы анализа и анализ тональности == | ||
Версия от 19:06, 27 августа 2025
| Планируемые результаты обучения (Знать, Уметь, Владеть) | Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов.
В результате изучения дисциплины студент должен:
уметь:
владеть:
|
|---|---|
| Содержание разделов курса | -
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
|
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | R, VUE |
| Книги, на которых основывается учебный курс |
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между психолингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
Введение в экосистему tidyverse для анализа данных. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm. Основные структуры данных для хранения текста в R. Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов. Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и терм-документных матриц. Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
Психолингвистические методы анализа и анализ тональности
Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения. Анализ тональности и настроений: теоретические основы и практические методы. Словарные методы и машинное обучение в анализе тональности. Выявление неискренности и психоэмоционального напряжения в тексте. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик. Интеграция количественных и качественных методов анализа.
