R-скрипт анализ Шишкова Дарья
Материал из Поле цифровой дидактики
Описание датасета
Для анализа был выбран датасет Food, находящийся в категории Dataset. Этот датасет содержит данные о различных блюдах и витаминах и минералах, которые в них содержатся. Ссылка на датасет: [1]
R-скрипт для вывода 10 наиболее встречаемых слов
library(tidyverse)
data <- read_csv("https://corgis-edu.github.io/corgis/datasets/csv/food/food.csv")
glimpse(data)
# Чтение всех текстовых колонок
all_text <- data %>%
select(where(is.character)) %>%
unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%
pull(all_text)
# Разбивка на слова
words <- str_split(all_text, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
tolower() %>%
.[. != ""]
# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов:", total_words))
# 10 самых частых слов, связанных с едой
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово из датасета", "Сколько раз встречается")
print(top10_words)
Результаты поиска 10 наиболее встречаемых слов

В результате мы видим, что чаще всего в датасете встречаются союзы (with, or, and), остальные позиции занимает еда, известная всем (chicken, sauce, cheese, vegetables, sandwich). Также есть 2 слова, которые не относятся ни к одной из этих категорий (fat, added).
Вывод
Благодаря языку R и RStudio мы можем анализировать большие тексты и определять часто встречающиеся слова для дальнейшей работы (создание диаграмм или опросов, к примеру).
