R-скрипт анализ Шишкова Дарья

Материал из Поле цифровой дидактики

Описание датасета

Для анализа был выбран датасет Food, находящийся в категории Dataset. Этот датасет содержит данные о различных блюдах и витаминах и минералах, которые в них содержатся. Ссылка на датасет: [1]

R-скрипт для вывода 10 наиболее встречаемых слов

library(tidyverse)

data <- read_csv("https://corgis-edu.github.io/corgis/datasets/csv/food/food.csv")

glimpse(data)

# Чтение всех текстовых колонок 
all_text <- data %>%
  select(where(is.character)) %>% 
  unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%
  pull(all_text)

# Разбивка на слова
words <- str_split(all_text, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>%
  tolower() %>%
  .[. != ""]

# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов:", total_words))

# 10 самых частых слов, связанных с едой
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово из датасета", "Сколько раз встречается")
print(top10_words)

Результаты поиска 10 наиболее встречаемых слов

В результате мы видим, что чаще всего в датасете встречаются союзы (with, or, and), остальные позиции занимает еда, известная всем (chicken, sauce, cheese, vegetables, sandwich). Также есть 2 слова, которые не относятся ни к одной из этих категорий (fat, added).

Вывод

Благодаря языку R и RStudio мы можем анализировать большие тексты и определять часто встречающиеся слова для дальнейшей работы (создание диаграмм или опросов, к примеру).