R-скрипт анализ датасета Ключникова Дарья: различия между версиями

Версия от 20:18, 12 июня 2026

Описание датасета

Для анализа был взят датасет Computational thinking (ACM), который содержит записи из библиотеки ACM по запросу Computational Thinking. Он содержит информацию о статьях и книгах, найденных по запросу: имя автора(-ов), название, абстракт и др.

Ссылка на датасет: Computational thinking (ACM)

Код R-скрипта (просмотр всех текстовых полей)

library(tidyverse)

data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")

glimpse(data)

# Чтение всех текстовых колонок 
all_text <- data %>%
  select(where(is.character)) %>% 
  unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%
  pull(all_text)

# Разбивка на слова
words <- str_split(all_text, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>%
  tolower() %>%
  .[. != ""]

# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов во всём корпусе:", total_words))

# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
print(top10_words)

Вывод работы программы в RStudio (для всех текстовых полей)

Код R-скрипта (просмотр только заголовков)

library(tidyverse)

data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")

glimpse(data)

# Берём заголовки статей для анализа
titles <- data$Title

# Разбиваем заголовки на отдельные слова
words <- str_split(titles, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>% 
  tolower() %>% 
  .[. != ""]                           

# Общее количество слов
total_words <- length(words)
print(paste("Всего слов в заголовках статей:", total_words))

# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
rownames(top10_words) <- NULL

print("10 самых частых слов в заголовках:")
print(top10_words)

Вывод работы программы в RStudio (только заголовки)

@@ Строка 37: / Строка 37: @@
 === Вывод работы программы в RStudio (для всех текстовых полей) ===
-[[Файл:Все текстовые поля.png|мини]]
+[[Файл:Все текстовые поля.png|Вывод работы программы в RStudio (для всех текстовых полей)]]
 == Код R-скрипта (просмотр только заголовков) ==
@@ Строка 71: / Строка 71: @@
 === Вывод работы программы в RStudio (только заголовки) ===
-[[Файл:Только заголовки.png|мини]]
+[[Файл:Только заголовки.png|Вывод работы программы в RStudio (только заголовки)]]
 [[Категория:CompLing Works]]

Аноним

Поиск

R-скрипт анализ датасета Ключникова Дарья: различия между версиями

Пространства имён

Ещё

Действия на странице

Версия от 20:18, 12 июня 2026

Содержание

Описание датасета

Код R-скрипта (просмотр всех текстовых полей)

Вывод работы программы в RStudio (для всех текстовых полей)

Код R-скрипта (просмотр только заголовков)

Вывод работы программы в RStudio (только заголовки)

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

R-скрипт анализ датасета Ключникова Дарья: различия между версиями

Версия от 20:18, 12 июня 2026

Описание датасета

Код R-скрипта (просмотр всех текстовых полей)

Вывод работы программы в RStudio (для всех текстовых полей)

Код R-скрипта (просмотр только заголовков)

Вывод работы программы в RStudio (только заголовки)

Навигация

Вики-инструменты

Инструменты для страниц

Категории