Text Mining with R: различия между версиями
Материал из Поле цифровой дидактики
Patarakin (обсуждение | вклад) Нет описания правки |
Patarakin (обсуждение | вклад) Нет описания правки |
||
| (не показана 1 промежуточная версия этого же участника) | |||
| Строка 6: | Строка 6: | ||
|Environment=R, Tidytext | |Environment=R, Tidytext | ||
}} | }} | ||
Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext: | |||
#Tidy формат текстовых данных: организация текста так, чтобы каждому [[токен]]у (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R. | |||
#[[Токенизация]] и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`. | |||
#Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа. | |||
#[[Анализ тональности]] (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности. | |||
#[[TF-IDF]]: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова. | |||
#Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста. | |||
#Преобразование форматов данных: перевод между tidy-форматом, матрицами «терм-документ» и объектами [[corpus]] для совместимости с различными пакетами R (tm, quanteda). | |||
#Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов. | |||
Текущая версия от 15:18, 18 августа 2025
| Описание книги | Книга даёт завершённую картину современных аналитических подходов к тексту, систематизируя инструменты R и методику работы с данными на всех этапах анализа. |
|---|---|
| Область знаний | Лингвистика |
| Год издания | 2017 |
| Веб-сайт где можно прочитать книгу или статью | https://www.tidytextmining.com/ |
| Видео запись | |
| Авторы | |
| Среды и средства, на которые повлияла книга | R, Tidytext |
Краткий перечень основных концепций, освещённых в книге по анализу текста в R на основе подхода tidytext:
- Tidy формат текстовых данных: организация текста так, чтобы каждому токену (слову, n-грамме, предложению) соответствовала отдельная строка таблицы; это облегчает обработку текстов с помощью стандартных инструментов R.
- Токенизация и препроцессинг: автоматическое деление текста на отдельные слова или другие смысловые единицы с помощью специальных функций, таких как `unnest_tokens()`.
- Работа с корпусами: использование готовых литературных коллекций и публичных текстовых ресурсов (например, Project Gutenberg), подготовка данных для анализа.
- Анализ тональности (sentiment analysis): определение эмоциональной окраски текста через сопоставление токенов с элементами словарей тональности.
- TF-IDF: вычисление статистики значимости термина (слова) для отдельного документа в составе корпуса, что позволяет выявлять ключевые слова.
- Анализ n-грамм и сетей слов: изучение устойчивых сочетаний слов, построение графов связей и парных встречаемостей для выявления структуры текста.
- Преобразование форматов данных: перевод между tidy-форматом, матрицами «терм-документ» и объектами corpus для совместимости с различными пакетами R (tm, quanteda).
- Тематическое моделирование: автоматическое выделение и визуализация тематических структур в тексте (например, с помощью topicmodels), интерпретация результатов с помощью удобных tidy-инструментов.
