Text Mining with R

Материал из Поле цифровой дидактики



Описание книги Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа.
Область знаний Лингвистика
Год издания 2017
Веб-сайт где можно прочитать книгу или статью https://www.tidytextmining.com/
Видео запись
Авторы
Среды и средства, на которые повлияла книга R, Tidytext


Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext:

  1. Tidy формат текстовых данных: организация текста так, чтобы каждому токену (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R.
  2. Токенизация и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`.
  3. Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа.
  4. Анализ тональности (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности.
  5. TF-IDF: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова.
  6. Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста.
  7. Преобразование форматов данных: перевод между tidy-форматом, матрицами «терм-документ» и объектами corpus для совместимости с различными пакетами R (tm, quanteda).
  8. Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов.