Text Mining with R: различия между версиями
Материал из Поле цифровой дидактики
Patarakin (обсуждение | вклад) Нет описания правки |
Patarakin (обсуждение | вклад) Нет описания правки |
||
| Строка 6: | Строка 6: | ||
|Environment=R, Tidytext | |Environment=R, Tidytext | ||
}} | }} | ||
Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext: | |||
#Tidy формат текстовых данных: организация текста так, чтобы каждому [[токен]]у (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R. | |||
#[[Токенизация]] и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`. | |||
#Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа. | |||
#Анализ тональности (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности. | |||
#TF-IDF: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова. | |||
#Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста. | |||
#Преобразование форматов данных: перевод между tidy-форматом, матрицами «документ-терм» и объектами corpus для совместимости с различными пакетами R (tm, quanteda). | |||
#Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов. | |||
Версия от 15:16, 18 августа 2025
| Описание книги | Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа. |
|---|---|
| Область знаний | Лингвистика |
| Год издания | 2017 |
| Веб-сайт где можно прочитать книгу или статью | https://www.tidytextmining.com/ |
| Видео запись | |
| Авторы | |
| Среды и средства, на которые повлияла книга | R, Tidytext |
Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext:
- Tidy формат текстовых данных: организация текста так, чтобы каждому токену (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R.
- Токенизация и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`.
- Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа.
- Анализ тональности (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности.
- TF-IDF: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова.
- Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста.
- Преобразование форматов данных: перевод между tidy-форматом, матрицами «документ-терм» и объектами corpus для совместимости с различными пакетами R (tm, quanteda).
- Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов.
