R-скрипт анализ датасета Ключникова Дарья: различия между версиями
Материал из Поле цифровой дидактики
Нет описания правки |
|||
| (не показано 8 промежуточных версий этого же участника) | |||
| Строка 5: | Строка 5: | ||
Ссылка на датасет: [http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv Computational thinking (ACM)] | Ссылка на датасет: [http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv Computational thinking (ACM)] | ||
== Код R-скрипта == | == Код R-скрипта (просмотр всех текстовых полей) == | ||
<syntaxhighlight lang="R" line> | <syntaxhighlight lang="R" line> | ||
library(tidyverse) | library(tidyverse) | ||
| Строка 15: | Строка 15: | ||
# Чтение всех текстовых колонок | # Чтение всех текстовых колонок | ||
all_text <- data %>% | all_text <- data %>% | ||
select(where(is.character)) %>% | select(where(is.character)) %>% | ||
unite("all_text", everything(), sep = " ", na.rm = TRUE) %>% | unite("all_text", everything(), sep = " ", na.rm = TRUE) %>% | ||
pull(all_text) | pull(all_text) | ||
| Строка 35: | Строка 35: | ||
print(top10_words) | print(top10_words) | ||
</syntaxhighlight> | </syntaxhighlight> | ||
=== Вывод работы программы в RStudio (для всех текстовых полей) === | |||
[[Файл:Все текстовые поля.png|Вывод работы программы в RStudio (для всех текстовых полей)]] | |||
== Код R-скрипта (просмотр только заголовков) == | |||
<syntaxhighlight lang="R" line> | |||
library(tidyverse) | |||
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv") | |||
glimpse(data) | |||
# Берём заголовки статей для анализа | |||
titles <- data$Title | |||
# Разбиваем заголовки на отдельные слова | |||
words <- str_split(titles, " ") %>% | |||
unlist() %>% | |||
str_replace_all("[^A-Za-z]", "") %>% | |||
tolower() %>% | |||
.[. != ""] | |||
# Общее количество слов | |||
total_words <- length(words) | |||
print(paste("Всего слов в заголовках статей:", total_words)) | |||
# 10 самых частых слов | |||
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10]) | |||
colnames(top10_words) <- c("Слово", "Частота") | |||
rownames(top10_words) <- NULL | |||
print("10 самых частых слов в заголовках:") | |||
print(top10_words) | |||
</syntaxhighlight> | |||
=== Вывод работы программы в RStudio (только заголовки) === | |||
[[Файл:Только заголовки.png|Вывод работы программы в RStudio (только заголовки)]] | |||
== Анализ результатов == | |||
{| class="wikitable" | |||
! Показатель !! Весь корпус !! Только заголовки | |||
|- | |||
! Всего слов | |||
| 300 960 || 16 795 | |||
|- | |||
! 10 самых частых слов | |||
| | |||
{| style="width:100%" | |||
| the || style="text-align: right;" | 13 018 | |||
|- | |||
| of || style="text-align: right;" | 10 045 | |||
|- | |||
| and || style="text-align: right;" | 9 848 | |||
|- | |||
| in || style="text-align: right;" | 7 150 | |||
|- | |||
| to || style="text-align: right;" | 7 146 | |||
|- | |||
| a || style="text-align: right;" | 5 861 | |||
|- | |||
| for || style="text-align: right;" | 4 666 | |||
|- | |||
| computing || style="text-align: right;" | 3 061 | |||
|- | |||
| on || style="text-align: right;" | 3 043 | |||
|- | |||
| science || style="text-align: right;" | 2 726 | |||
|} | |||
| | |||
{| style="width:100%" | |||
| in || style="text-align: right;" | 608 | |||
|- | |||
| and || style="text-align: right;" | 566 | |||
|- | |||
| of || style="text-align: right;" | 548 | |||
|- | |||
| a || style="text-align: right;" | 533 | |||
|- | |||
| the || style="text-align: right;" | 482 | |||
|- | |||
| for || style="text-align: right;" | 433 | |||
|- | |||
| computational || style="text-align: right;" | 346 | |||
|- | |||
| to || style="text-align: right;" | 328 | |||
|- | |||
| thinking || style="text-align: right;" | 314 | |||
|- | |||
| science || style="text-align: right;" | 293 | |||
|} | |||
|} | |||
Как видно из таблицы, при анализе всего корпуса доминируют служебные слова английского языка (''the'', ''of'', ''and''), что характерно для больших текстовых массивов. | |||
При анализе только заголовков статей общее количество слов значительно меньше, а в топ-10 появляются содержательные термины ''computational'', ''thinking'' и ''science'', что отражает тематику датасета – вычислительное мышление и компьютерные науки. | |||
[[Категория:CompLing Works]] | [[Категория:CompLing Works]] | ||
Текущая версия от 20:32, 12 июня 2026
Описание датасета
Для анализа был взят датасет Computational thinking (ACM), который содержит записи из библиотеки ACM по запросу Computational Thinking. Он содержит информацию о статьях и книгах, найденных по запросу: имя автора(-ов), название, абстракт и др.
Ссылка на датасет: Computational thinking (ACM)
Код R-скрипта (просмотр всех текстовых полей)
library(tidyverse)
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")
glimpse(data)
# Чтение всех текстовых колонок
all_text <- data %>%
select(where(is.character)) %>%
unite("all_text", everything(), sep = " ", na.rm = TRUE) %>%
pull(all_text)
# Разбивка на слова
words <- str_split(all_text, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
tolower() %>%
.[. != ""]
# Общее количество слов в корпусе
total_words <- length(words)
print(paste("Всего слов во всём корпусе:", total_words))
# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
print(top10_words)
Вывод работы программы в RStudio (для всех текстовых полей)
Код R-скрипта (просмотр только заголовков)
library(tidyverse)
data <- read_csv("http://www.uic.unn.ru/pustyn/data-sets/digida/ACM_think.csv")
glimpse(data)
# Берём заголовки статей для анализа
titles <- data$Title
# Разбиваем заголовки на отдельные слова
words <- str_split(titles, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
tolower() %>%
.[. != ""]
# Общее количество слов
total_words <- length(words)
print(paste("Всего слов в заголовках статей:", total_words))
# 10 самых частых слов
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
rownames(top10_words) <- NULL
print("10 самых частых слов в заголовках:")
print(top10_words)
Вывод работы программы в RStudio (только заголовки)
Анализ результатов
| Показатель | Весь корпус | Только заголовки | ||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Всего слов | 300 960 | 16 795 | ||||||||||||||||||||||||||||||||||||||||
| 10 самых частых слов |
|
|
Как видно из таблицы, при анализе всего корпуса доминируют служебные слова английского языка (the, of, and), что характерно для больших текстовых массивов. При анализе только заголовков статей общее количество слов значительно меньше, а в топ-10 появляются содержательные термины computational, thinking и science, что отражает тематику датасета – вычислительное мышление и компьютерные науки.


