R-скрипт анализ датасета Ключникова Дарья: различия между версиями
Материал из Поле цифровой дидактики
Нет описания правки |
|||
| Строка 5: | Строка 5: | ||
Ссылка на датасет: [http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv Computational thinking (ACM)] | Ссылка на датасет: [http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv Computational thinking (ACM)] | ||
== Код R-скрипта == | == Код R-скрипта (просмотр всех текстовых полей) == | ||
<syntaxhighlight lang="R" line> | <syntaxhighlight lang="R" line> | ||
library(tidyverse) | library(tidyverse) | ||
| Строка 35: | Строка 35: | ||
print(top10_words) | print(top10_words) | ||
</syntaxhighlight> | </syntaxhighlight> | ||
=== Вывод работы программы в RStudio (для всех текстовых полей) === | |||
впвапрварваправрвпрв | |||
== Код R-скрипта (просмотр только заголовков) == | |||
<syntaxhighlight lang="R" line> | |||
library(tidyverse) | |||
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv") | |||
glimpse(data) | |||
# Берём заголовки статей для анализа | |||
titles <- data$Title | |||
# Разбиваем заголовки на отдельные слова | |||
words <- str_split(titles, " ") %>% | |||
unlist() %>% | |||
str_replace_all("[^A-Za-z]", "") %>% | |||
tolower() %>% | |||
.[. != ""] | |||
# Общее количество слов | |||
total_words <- length(words) | |||
print(paste("Всего слов в заголовках статей:", total_words)) | |||
# 10 самых частых слов | |||
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10]) | |||
colnames(top10_words) <- c("Слово", "Частота") | |||
rownames(top10_words) <- NULL | |||
print("10 самых частых слов в заголовках:") | |||
print(top10_words) | |||
</syntaxhighlight> | |||
=== Вывод работы программы в RStudio (только заголовки) === | |||
вапвапвпвпапвппвпвпа | |||
[[Категория:CompLing Works]] | [[Категория:CompLing Works]] | ||
Версия от 20:10, 12 июня 2026
Описание датасета
Для анализа был взят датасет Computational thinking (ACM), который содержит записи из библиотеки ACM по запросу Computational Thinking. Он содержит информацию о статьях и книгах, найденных по запросу: имя автора(-ов), название, абстракт и др.
Ссылка на датасет: Computational thinking (ACM)
Код R-скрипта (просмотр всех текстовых полей)
library(tidyverse)
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")
glimpse(data)
# Чтение всех текстовых колонок
all_text <- data %>%
select(where(is.character)) %>%
unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%
pull(all_text)
# Разбивка на слова
words <- str_split(all_text, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
tolower() %>%
.[. != ""]
# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов во всём корпусе:", total_words))
# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
print(top10_words)
Вывод работы программы в RStudio (для всех текстовых полей)
впвапрварваправрвпрв
Код R-скрипта (просмотр только заголовков)
library(tidyverse)
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")
glimpse(data)
# Берём заголовки статей для анализа
titles <- data$Title
# Разбиваем заголовки на отдельные слова
words <- str_split(titles, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
tolower() %>%
.[. != ""]
# Общее количество слов
total_words <- length(words)
print(paste("Всего слов в заголовках статей:", total_words))
# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
rownames(top10_words) <- NULL
print("10 самых частых слов в заголовках:")
print(top10_words)
Вывод работы программы в RStudio (только заголовки)
вапвапвпвпапвппвпвпа
