R-скрипт анализ датасета Ключникова Дарья
Материал из Поле цифровой дидактики
Описание датасета
Для анализа был взят датасет Computational thinking (ACM), который содержит записи из библиотеки ACM по запросу Computational Thinking. Он содержит информацию о статьях и книгах, найденных по запросу: имя автора(-ов), название, абстракт и др.
Ссылка на датасет: Computational thinking (ACM)
Код R-скрипта
library(tidyverse)
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")
glimpse(data)
# Чтение всех текстовых колонок
all_text <- data %>%
select(where(is.character)) %>% # выбираем только текстовые колонки
unite("all_text", everything(), sep = " ", na.rm = TRUE) %>% # объединяем их
pull(all_text)
# Разбивка на слова
words <- str_split(all_text, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
tolower() %>%
.[. != ""]
# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов во всём корпусе:", total_words))
# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
print(top10_words)
