R-скрипт анализ датасета Ключникова Дарья

Материал из Поле цифровой дидактики

Описание датасета

Для анализа был взят датасет Computational thinking (ACM), который содержит записи из библиотеки ACM по запросу Computational Thinking. Он содержит информацию о статьях и книгах, найденных по запросу: имя автора(-ов), название, абстракт и др.

Ссылка на датасет: Computational thinking (ACM)

Код R-скрипта (просмотр всех текстовых полей)

library(tidyverse)

data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")

glimpse(data)

# Чтение всех текстовых колонок 
all_text <- data %>%
  select(where(is.character)) %>% 
  unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%
  pull(all_text)

# Разбивка на слова
words <- str_split(all_text, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>%
  tolower() %>%
  .[. != ""]

# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов во всём корпусе:", total_words))

# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
print(top10_words)

Вывод работы программы в RStudio (для всех текстовых полей)

Вывод работы программы в RStudio (для всех текстовых полей)

Код R-скрипта (просмотр только заголовков)

library(tidyverse)

data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")

glimpse(data)

# Берём заголовки статей для анализа
titles <- data$Title

# Разбиваем заголовки на отдельные слова
words <- str_split(titles, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>% 
  tolower() %>% 
  .[. != ""]                           

# Общее количество слов
total_words <- length(words)
print(paste("Всего слов в заголовках статей:", total_words))

# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
rownames(top10_words) <- NULL

print("10 самых частых слов в заголовках:")
print(top10_words)

Вывод работы программы в RStudio (только заголовки)

Вывод работы программы в RStudio (только заголовки)