Методы информационного анализа текста (syllabus) 2025: различия между версиями
Patarakin (обсуждение | вклад) Нет описания правки |
Patarakin (обсуждение | вклад) |
||
| Строка 71: | Строка 71: | ||
Обзор современных исследований в области текстовой аналитики | Обзор современных исследований в области текстовой аналитики | ||
{{#ask: [[Diligence, Patience, and Humility]] OR [[On memory]] OR [[Семиосфера: культура и взрыв, внутри мыслящих миров, статьи, исследования, заметки]] OR [[Тишина как общинное достояние]] OR [[Феномен науки: Кибернетический подход к эволюции]] OR [[Экологический подход к зрительному восприятию]]| ?Description } | |||
== Основы работы в среде R для анализа текста == | == Основы работы в среде R для анализа текста == | ||
Версия от 08:35, 13 сентября 2025
| Планируемые результаты обучения (Знать, Уметь, Владеть) | Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов.
В результате изучения дисциплины студент должен:
|
|---|---|
| Содержание разделов курса | -
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
|
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | R, VUE, VOYANT Tools, RAWGraphs, Formulabot Sentiment Analysis Tool |
| Книги, на которых основывается учебный курс | Text Mining with R |
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между психолингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
{{#ask: Diligence, Patience, and Humility OR On memory OR Семиосфера: культура и взрыв, внутри мыслящих миров, статьи, исследования, заметки OR Тишина как общинное достояние OR Феномен науки: Кибернетический подход к эволюции OR Экологический подход к зрительному восприятию| ?Description }
Основы работы в среде R для анализа текста
- Установка и настройка среды R и RStudio.
- Основы синтаксиса R и принципы tidy data.
- Введение в экосистему tidyverse для анализа данных.
- Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
- Основные структуры данных для хранения текста в R.
- Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
- Этапы предобработки текстовых данных.
- Токенизация: разбиение текста на слова, предложения, n-граммы.
- Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
- Работа со стоп-словами для русского и английского языков.
- Стемминг и лемматизация: принципы и инструменты.
- Создание корпусов и терм-документые матрицы.
- Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
- Введение в MediaWiki API: структура, возможности, ограничения.
- Основные методы получения содержимого страниц.
- Работа с различными форматами данных: wikitext, HTML, plain text.
- Использование пакетов httr и jsonlite для HTTP-запросов в R.
- Создание функций для автоматического извлечения текстов из Wikipedia.
- Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных
- Частотный анализ слов и n-грамм.
- Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
- Анализ коллокаций и совместной встречаемости слов.
- Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
- Сетевой анализ текстов и построение графов слов.
- Сравнительный анализ текстовых корпусов.
- Статистические тесты для текстовых данных
Психолингвистические методы анализа и анализ тональности
- Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
- Анализ тональности текста и настроений: теоретические основы и практические методы.
- Словарные методы и машинное обучение в анализе тональности.
- Выявление неискренности и психоэмоционального напряжения в тексте.
- Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
- Интеграция количественных и качественных методов анализа.
