R-скрипт анализ датасета Ключникова Дарья: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «Господи спаси и сохрани Категория:CompLing Works»
 
Нет описания правки
Строка 1: Строка 1:
Господи спаси и сохрани
== Описание датасета ==
 
Для анализа был взят датасет '''Computational thinking (ACM)''', который содержит записи из библиотеки ACM по запросу Computational Thinking. Он содержит информацию о статьях и книгах, найденных по запросу: имя автора(-ов), название, абстракт и др.
 
Ссылка на датасет: [http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv Computational thinking (ACM)]
 
== Код R-скрипта ==
<syntaxhighlight lang="R" line>
library(tidyverse)
 
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")
 
glimpse(data)
 
# Чтение всех текстовых колонок
all_text <- data %>%
  select(where(is.character)) %>%      # выбираем только текстовые колонки
  unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%  # объединяем их
  pull(all_text)
 
# Разбивка на слова
words <- str_split(all_text, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>%
  tolower() %>%
  .[. != ""]
 
# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов во всём корпусе:", total_words))
 
# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
print(top10_words)
</syntaxhighlight>
 
[[Категория:CompLing Works]]
[[Категория:CompLing Works]]

Версия от 20:02, 12 июня 2026

Описание датасета

Для анализа был взят датасет Computational thinking (ACM), который содержит записи из библиотеки ACM по запросу Computational Thinking. Он содержит информацию о статьях и книгах, найденных по запросу: имя автора(-ов), название, абстракт и др.

Ссылка на датасет: Computational thinking (ACM)

Код R-скрипта

library(tidyverse)

data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")

glimpse(data)

# Чтение всех текстовых колонок 
all_text <- data %>%
  select(where(is.character)) %>%      # выбираем только текстовые колонки
  unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%  # объединяем их
  pull(all_text)

# Разбивка на слова
words <- str_split(all_text, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>%
  tolower() %>%
  .[. != ""]

# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов во всём корпусе:", total_words))

# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
print(top10_words)