Методы информационного анализа текста (syllabus) 2025

Материал из Поле цифровой дидактики



Планируемые результаты обучения (Знать, Уметь, Владеть) Цель курса – формирование у студентов магистерской программы "Психолингвистика речевого воздействия" системных знаний и практических навыков в области современных методов информационного анализа текстовых данных с использованием открытых программных решений и психолингвистических подходов.
Задачи курса
  • Освоение теоретических основ и методологии информационного анализа текста в контексте психолингвистических исследований, включая понимание принципов обработки естественного языка, статистического анализа текстовых корпусов.
  • Развитие практических навыков работы с открытыми программными инструментами, особенно средой R и специализированными пакетами для текстовой аналитики (tidytext, quanteda, tm), а также освоение техник получения текстовых данных через MediaWiki API и другие открытые источники.
  • Формирование компетенций интеграции количественных и качественных методов анализа для решения исследовательских задач в области психолингвистики речевого воздействия, включая анализ тональности, выявление психоэмоциональных характеристик текста и определение личностных особенностей автора.

В результате изучения дисциплины студент должен:

знать
  1. Теоретические основы информационного анализа текста и его место в системе психолингвистических исследований
  2. Современные методы обработки естественного языка и компьютерной лингвистики
  3. Принципы работы с MediaWiki API и другими источниками текстовых данных
  4. Основы статистической обработки текстовых корпусов в среде R
  5. Психолингвистические подходы к анализу речи и текста.
уметь
  1. Проводить предобработку и нормализацию текстовых данных (токенизация, стемминг, лемматизация)
  2. Использовать пакеты R для текстовой аналитики (tidytext, quanteda, tm, stringr)
  3. Получать и обрабатывать текстовые данные через MediaWiki API
  4. Применять методы анализа тональности и настроений в текстах
  5. Проводить психолингвистический анализ текстовых данных
  6. Визуализировать результаты анализа текста (облака слов, графики частотности, сети).
владеть
  1. Навыками программирования в среде R для решения задач текстовой аналитики
  2. Методиками интегрированного анализа больших текстовых корпусов
  3. Техниками извлечения психологической информации из текстовых данных
  4. Инструментами веб-аналитики текста и онлайн-сервисами
  5. Навыками интерпретации результатов количественного анализа в контексте психолингвистических теорий
Содержание разделов курса -
Теоретические основы информационного анализа текста
Введение в психолингвистические основы анализа текста.
Современные подходы к компьютерной обработке естественного языка.
Связь между психолингвистикой и информационным анализом текста.
Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. : :Этические аспекты анализа текстовых данных.
Сравнительный анализ различных подходов к обработке текста
Работа с примерами психолингвистического анализа
Обзор современных исследований в области текстовой аналитики
Основы работы в среде R для анализа текста
Установка и настройка среды R и RStudio. Основы синтаксиса R и принципы tidy data.
Введение в экосистему tidyverse для анализа данных.
Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
Основные структуры данных для хранения текста в R.
Импорт и экспорт текстовых данных различных форматов.
Предобработка и подготовка текстовых данных
Этапы предобработки текстовых данных. Токенизация: разбиение текста на слова, предложения, n-граммы. : Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
Работа со стоп-словами для русского и английского языков. Стемминг и лемматизация: принципы и инструменты. Создание корпусов и документно-терминных матриц. Обработка больших текстовых массивов.
Получение текстовых данных через MediaWiki API
Введение в MediaWiki API: структура, возможности, ограничения. Основные методы получения содержимого страниц. Работа с различными форматами данных: wikitext, HTML, plain text. Использование пакетов httr и jsonlite для HTTP-запросов в R. Создание функций для автоматического извлечения текстов из Wikipedia. Обработка метаданных и структурированной информации.
Статистический анализ и визуализация текстовых данных

Частотный анализ слов и n-грамм. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации. Анализ коллокаций и совместной встречаемости слов. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты. Сетевой анализ текстов и построение графов слов. Сравнительный анализ текстовых корпусов. Статистические тесты для текстовых данных

Психолингвистические методы анализа и анализ тональности
Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
Анализ тональности и настроений: теоретические основы и практические методы.
Словарные методы и машинное обучение в анализе тональности.
Выявление неискренности и психоэмоционального напряжения в тексте.
Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
Интеграция количественных и качественных методов анализа.
Видео запись
Среды и средства, которые поддерживают учебный курс R, VUE, VOYANT Tools, RAWGraphs, Formulabot Sentiment Analysis Tool
Книги, на которых основывается учебный курс Text Mining with R

Теоретические основы информационного анализа текста

Введение в психолингвистические основы анализа текста.

Современные подходы к компьютерной обработке естественного языка.

Связь между психолингвистикой и информационным анализом текста.

Основные направления текстовой аналитики: анализ тональности, тематическое моделирование, анализ стиля. Этические аспекты анализа текстовых данных.

Сравнительный анализ различных подходов к обработке текста

Работа с примерами психолингвистического анализа

Обзор современных исследований в области текстовой аналитики

 Description
Diligence, Patience, and HumilityСтатья Уолла в книге Open Sources: Voices from the Open Source Revolution
  • Люди легко понимают, что лучшая политика для компьютерной программы взаимодействующей с другими программы, это быть как можно точнее и строже в том, что эта программа передает другим, и быть как можно свободнее и либеральнее в том, что эта программа принимает от других. Странность в том, что люди не стремятся быть строже к своим собственным высказываниям и либеральнее к тому, что они слышат. Мы пытаемся поддерживать некоторые ценности в сообществе Перл. Как указал апостол Павел, никто не издавал законов против любви, радости, покоя, терпения, дружбы, нежности и самоконтроля. Так что вместо того чтобы запрещать зло, можно сосредоточиться на продвижении добра.
On memoryOn Memory (Electronic or Otherwise) - Leonardo The MIT Press Volume 23, Number 4, Autumn 1990 Наша практика обращения с электронной памятью подводит нас к признанию того факта, что память является не вещью, а процессом, хотя этот процесс и предполагает наличие тела человека или компьютера, внутри которого он должен происходить. Эта практика приводит нас к тому, что внутри нас нет никакого твердого ядра, которое бы руководило этим процессом и которое мы могли бы называть нашей "душой", нашим "духом" или даже нашим "эго". Практика показывает нам, что процесс извлечения, хранения и передачи информации протекает через нас и включает не только существующее и прошлое общество, но и фактически все, что мы называем словом "мир". Это приводит нас к пониманию того, что мы только узлы во всеобщей сети текущей информации, что эти узлы получают, перерабатывают и передают информацию, и что они полное ничто если взаимосвязи будут разорваны. Фактически, практика наших отношений с носителями электронной памяти требует от нас признать, что то, что мы называем "Я" это - только узел взаимосвязей и отношений, который при тщательном рассмотрении даже не содержит крючка, к которому эти отношения могут быть прицеплены
Семиосфера: культура и взрыв, внутри мыслящих миров, статьи, исследования, заметкиСедьмая книга сочинений Ю. М. Лотмана представляет его как основателя московско-тартуской семиотической школы, автора универсальной семиотической теории и методологии.
  • коллективный интеллект как образец для искусственного обладает рядом преимуществ по сравнению с индивидуальным. Представляя устройство, созданное историей человечества, он в гораздо большей мере эксплицирован, механизмы его выявлены в языках культуры и закреплены многочисленными текстами, в отличие от скрытых языков человеческого мозга. В ходе предшествующего изучения культур накоплен огромный материал, который при соответственной интерпретации может раскрыть исключительно интересные интеллектуально-мнемонические механизмы.
  • Ни одна культура не может удовлетвориться одним языком. Минимальную систему образует набор из двух параллельных языков, - например, словесного и изобразительного. В дальнейшем динамика любой культуры включает в себя умножение набора семиотических коммуникаций. Поскольку образ внешнего мира, переведенный на тексты того или иного языка, подвергается моделирующему воздействию последнего, система, как единый организм, получает в свое распоряжение для каждого внешнего объекта целый набор моделей, чем восполняет неполноту своей информации о нем. Чем резче выражена специфика того или иного языка (результатом этого будет возрастающая трудность перевода его текстов на другие языки), тем своеобразнее будет его способ моделирования и, следовательно, тем полезнее он будет для системы в целом.
Тишина как общинное достояниеThis article is from Illich's remarks at the "Asahi Symposium Science and Man - The computer-managed Society," Tokyo, Japan, March 21, 1982. The ideas here are part of a book Illich is working on, The History of Scarcity. - Stewart Brand The CoEvolution Quarterly, Winter 1983
  • С моим приездом на остров все изменилось. На том же корабле, который привез меня, на остров привезли первый громкоговоритель. Только немногие люди тогда слышали такую вещь. До этого дня все женщины и мужчины говорили голосами примерно одной силы. После этого все изменилось. Теперь доступ к микрофону определял, чей голос будет усилен. Тишина перестала быть общинной; она стала ресурсом, которую заполнял громкоговоритель. Сам язык трансформировался из местного общинного достояния в национальный ресурс для коммуникации. Как загороди помещиков повысили национальную производительность через запрет индивидуальному крестьянину держать свои несколько овечек, так и появление громкоговорителя разрушило тишину, которая прежде давала возможность каждому высказаться своим собственным голосом.
  • Феномен науки: Кибернетический подход к эволюцииВ книге изложена концепция метасистемного перехода и с ее позиций прослеживает эволюцию мира от простейших одноклеточных организмов до возникновения мышления, развития науки и культуры.
    Экологический подход к зрительному восприятиюЭта книга о том, как мы видим. Каким мы видим окружающий нас мир? Как мы видим поверхности, их компоновку, цвет, текстуру? Как мы видим, где в этом мире находимся мы сами? Как мы видим, движемся мы или нет и если движемся, то куда? Как нам удается по внешнему виду вещей определить, на что они годятся? Почему все выглядит именно так, как оно выглядит? Как мы видим, как делать то или иное - вдевать нитку в иголку или вести автомобиль? Какие возможности открывает окружающий мир перед человеком, как мы воспринимаем и используем эти возможности.

    Основы работы в среде R для анализа текста

    1. Установка и настройка среды R и RStudio.
    2. Основы синтаксиса R и принципы tidy data.
    3. Введение в экосистему tidyverse для анализа данных.
    4. Специализированные пакеты для работы с текстом: установка и первое знакомство с tidytext, quanteda, tm.
    5. Основные структуры данных для хранения текста в R.
    6. Импорт и экспорт текстовых данных различных форматов.


     Description
    RR — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Используется для обработки, анализа и визуализации данных
    RStudioсвободная среда разработки программного обеспечения с открытым исходным кодом для языка программирования R, который предназначен для статистической обработки данных и работы с графикой.

    Справочные материалы по R

     Description
    APIs for social scientists: A collaborative reviewВ книге представлено множество API социальных сетей и основы их использования. В статье по этой книге собраны примеры API и особенности работы с ними. Код а книге - R
    Big Data with RExploring, Visualizing, and Modeling Big Data with R
    • В образовании имеется огромное количество данных — от записей о студентах и наблюдений преподавателей до результатов тестов. Современные технологии, такие как распознавание лиц и биометрические сигналы, расширяют доступ к визуальной и аудиоинформации о студентах. Мультимодальная аналитика в образовательном тестировании и психометрике позволяет точнее оценивать знания учащихся, одновременно отслеживая их прогресс с помощью аналитики обучения. Анализ логов и времени реакции помогает понять уровень вовлеченности студентов, выявить списывание и наличие предварительных знаний по тестовым заданиям.
    Learning analytics methods and tutorials: A practical guide using RМетоды учебной аналитики с использованием языка R - открытое руководство с многочисленными примерами и ссылками на образовательные датасеты
    R for Data ScienceПодробное руководство по использованию языка R для обработки, модификации, визуализации и программировании данных
    Text Mining with RКнига даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа.

    Предобработка и подготовка текстовых данных

    1. Этапы предобработки текстовых данных.
    2. Токенизация: разбиение текста на слова, предложения, n-граммы.
    3. Нормализация текста: приведение к нижнему регистру, удаление пунктуации и специальных символов.
    4. Работа со стоп-словами для русского и английского языков.
    5. Стемминг и лемматизация: принципы и инструменты.
    6. Создание корпусов и терм-документые матрицы.
    7. Обработка больших текстовых массивов.

    Получение текстовых данных через MediaWiki API

    1. Введение в MediaWiki API: структура, возможности, ограничения.
    2. Основные методы получения содержимого страниц.
    3. Работа с различными форматами данных: wikitext, HTML, plain text.
    4. Использование пакетов httr и jsonlite для HTTP-запросов в R.
    5. Создание функций для автоматического извлечения текстов из Wikipedia.
    6. Обработка метаданных и структурированной информации.

    Статистический анализ и визуализация текстовых данных

    1. Частотный анализ слов и n-грамм.
    2. Статистические метрики в анализе текста: TF-IDF, взаимная информация, коэффициенты ассоциации.
    3. Анализ коллокаций и совместной встречаемости слов.
    4. Методы визуализации текстовых данных: облака слов, графики частотности, тепловые карты.
    5. Сетевой анализ текстов и построение графов слов.
    6. Сравнительный анализ текстовых корпусов.
    7. Статистические тесты для текстовых данных

    Психолингвистические методы анализа и анализ тональности

    1. Психолингвистические подходы к анализу текста: выявление личностных характеристик, эмоциональных состояний, психического напряжения.
    2. Анализ тональности текста и настроений: теоретические основы и практические методы.
    3. Словарные методы и машинное обучение в анализе тональности.
    4. Выявление неискренности и психоэмоционального напряжения в тексте.
    5. Анализ стилистических и грамматических особенностей как индикаторов психологических характеристик.
    6. Интеграция количественных и качественных методов анализа.