Методы информационного анализа текста (syllabus) 2025
| Планируемые результаты обучения (Знать, Уметь, Владеть) | Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов.
В результате изучения дисциплины студент должен:
|
|---|---|
| Содержание разделов курса | -
Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных
|
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | R, VUE, VOYANT Tools, RAWGraphs, Formulabot Sentiment Analysis Tool |
| Книги, на которых основывается учебный курс | Text Mining with R |
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между психолингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
| Description | |
|---|---|
| Diligence, Patience, and Humility | Статья Уолла в книге Open Sources: Voices from the Open Source Revolution
|
| On memory | On Memory (Electronic or Otherwise) - Leonardo The MIT Press Volume 23, Number 4, Autumn 1990 Наша практика обращения с электронной памятью подводит нас к признанию того факта, что память является не вещью, а процессом, хотя этот процесс и предполагает наличие тела человека или компьютера, внутри которого он должен происходить. Эта практика приводит нас к тому, что внутри нас нет никакого твердого ядра, которое бы руководило этим процессом и которое мы могли бы называть нашей "душой", нашим "духом" или даже нашим "эго". Практика показывает нам, что процесс извлечения, хранения и передачи информации протекает через нас и включает не только существующее и прошлое общество, но и фактически все, что мы называем словом "мир". Это приводит нас к пониманию того, что мы только узлы во всеобщей сети текущей информации, что эти узлы получают, перерабатывают и передают информацию, и что они полное ничто если взаимосвязи будут разорваны. Фактически, практика наших отношений с носителями электронной памяти требует от нас признать, что то, что мы называем "Я" это - только узел взаимосвязей и отношений, который при тщательном рассмотрении даже не содержит крючка, к которому эти отношения могут быть прицеплены |
| Семиосфера: культура и взрыв, внутри мыслящих миров, статьи, исследования, заметки | Седьмая книга сочинений Ю. М. Лотмана представляет его как основателя московско-тартуской семиотической школы, автора универсальной семиотической теории и методологии.
|
| Тишина как общинное достояние | This article is from Illich's remarks at the "Asahi Symposium Science and Man - The computer-managed Society," Tokyo, Japan, March 21, 1982. The ideas here are part of a book Illich is working on, The History of Scarcity. - Stewart Brand The CoEvolution Quarterly, Winter 1983
|
| Феномен науки: Кибернетический подход к эволюции | В книге изложена концепция метасистемного перехода и с ее позиций прослеживает эволюцию мира от простейших одноклеточных организмов до возникновения мышления, развития науки и культуры. |
| Экологический подход к зрительному восприятию | Эта книга о том, как мы видим. Каким мы видим окружающий нас мир? Как мы видим поверхности, их компоновку, цвет, текстуру? Как мы видим, где в этом мире находимся мы сами? Как мы видим, движемся мы или нет и если движемся, то куда? Как нам удается по внешнему виду вещей определить, на что они годятся? Почему все выглядит именно так, как оно выглядит? Как мы видим, как делать то или иное - вдевать нитку в иголку или вести автомобиль? Какие возможности открывает окружающий мир перед человеком, как мы воспринимаем и используем эти возможности. |
Основы работы в среде R для анализа текста
- Установка и настройка среды R и RStudio.
- Основы синтаксиса R и принципы tidy data.
- Введение в экосистему tidyverse для анализа данных.
- Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
- Основные структуры данных для хранения текста в R.
- Импорт и экспорт текстовых данных различных форматов.
| Description | |
|---|---|
| R | R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Используется для обработки, анализа и визуализации данных |
| RStudio | свободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой. |
Справочные материалы по R
| Description | |
|---|---|
| APIs for social scientists: A collaborative review | В книге представлено множество API социальных сетей и основы их использования. В статье по этой книге собраны примеры API и особенности работы с ними. Код а книге - R |
| Big Data with R | Exploring, Visualizing, and Modeling Big Data with R
|
| Learning analytics methods and tutorials: A practical guide using R | Методы учебной аналитики с использованием языка R - открытое руководство с многочисленными примерами и ссылками на образовательные датасеты |
| R for Data Science | Подробное руководство по использованию языка R для обработки, модификации, визуализации и программировании данных |
| Text Mining with R | Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа. |
Предобработка и подготовка текстовых данных
- Этапы предобработки текстовых данных.
- Токенизация: разбиение текста на слова, предложения, n-граммы.
- Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
- Работа со стоп-словами для русского и английского языков.
- Стемминг и лемматизация: принципы и инструменты.
- Создание корпусов и терм-документые матрицы.
- Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
- Введение в MediaWiki API: структура, возможности, ограничения.
- Основные методы получения содержимого страниц.
- Работа с различными форматами данных: wikitext, HTML, plain text.
- Использование пакетов httr и jsonlite для HTTP-запросов в R.
- Создание функций для автоматического извлечения текстов из Wikipedia.
- Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных
- Частотный анализ слов и n-грамм.
- Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
- Анализ коллокаций и совместной встречаемости слов.
- Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
- Сетевой анализ текстов и построение графов слов.
- Сравнительный анализ текстовых корпусов.
- Статистические тесты для текстовых данных
Психолингвистические методы анализа и анализ тональности
- Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
- Анализ тональности текста и настроений: теоретические основы и практические методы.
- Словарные методы и машинное обучение в анализе тональности.
- Выявление неискренности и психоэмоционального напряжения в тексте.
- Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
- Интеграция количественных и качественных методов анализа.
