Text Mining with R
Материал из Поле цифровой дидактики
| Описание книги | Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа. |
|---|---|
| Область знаний | Лингвистика |
| Год издания | 2017 |
| Веб-сайт где можно прочитать книгу или статью | https://www.tidytextmining.com/ |
| Видео запись | |
| Авторы | |
| Среды и средства, на которые повлияла книга | R, Tidytext |
Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext:
- Tidy формат текстовых данных: организация текста так, чтобы каждому токену (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R.
- Токенизация и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`.
- Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа.
- Анализ тональности (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности.
- TF-IDF: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова.
- Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста.
- Преобразование форматов данных: перевод между tidy-форматом, матрицами «терм-документ» и объектами corpus для совместимости с различными пакетами R (tm, quanteda).
- Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов.
