Text Mining with R: различия между версиями

Текущая версия от 15:18, 18 августа 2025

Описание книги	Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа.
Область знаний	Лингвистика
Год издания	2017
Веб-сайт где можно прочитать книгу или статью	https://www.tidytextmining.com/
Видео запись
Авторы
Среды и средства, на которые повлияла книга	R, Tidytext

Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext:

Tidy формат текстовых данных: организация текста так, чтобы каждому токену (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R.
Токенизация и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`.
Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа.
Анализ тональности (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности.
TF-IDF: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова.
Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста.
Преобразование форматов данных: перевод между tidy-форматом, матрицами «терм-документ» и объектами corpus для совместимости с различными пакетами R (tm, quanteda).
Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов.

@@ Строка 6: / Строка 6: @@
 |Environment=R, Tidytext
 }}
+Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext:
+#Tidy формат текстовых данных: организация текста так, чтобы каждому [[токен]]у (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R.
+#[[Токенизация]] и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`.
+#Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа.
+#[[Анализ тональности]] (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности.
+#[[TF-IDF]]: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова.
+#Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста.
+#Преобразование форматов данных: перевод между tidy-форматом, матрицами «терм-документ» и объектами [[corpus]] для совместимости с различными пакетами R (tm, quanteda).
+#Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов.

Аноним

Поиск

Text Mining with R: различия между версиями

Пространства имён

Ещё

Действия на странице

Текущая версия от 15:18, 18 августа 2025

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Text Mining with R: различия между версиями

Текущая версия от 15:18, 18 августа 2025

Навигация

Вики-инструменты

Инструменты для страниц

Категории