R-script анализ датасета Жильцов Даниил
Материал из Поле цифровой дидактики
Описание датасета
Датасет Astronauts содержит информацию о космонавтах и астронавтах, их миссиях, продолжительности полётов и выходах в открытый космос. Источник: Corgis Dataset.
Датасет был взят с Категория:Dataset.
Код R-скрипта

library(tidyverse)
data <- read_csv("https://corgis-edu.github.io/corgis/datasets/csv/astronauts/astronauts.csv")
glimpse(data)
total_records <- nrow(data)
print(paste("Всего записей о миссиях:", total_records))
unique_astronauts <- data %>%
distinct(`Profile.Name`) %>%
nrow()
print(paste("Уникальных астронавтов в датасете:", unique_astronauts))
unique_names <- data %>%
distinct(`Profile.Name`) %>%
pull(`Profile.Name`)
words <- str_split(unique_names, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
.[. != ""]
total_words <- length(words)
print(paste("Всего слов в уникальных именах астронавтов:", total_words))
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
rownames(top10_words) <- NULL
print("Самые часто встречающиеся имена (First name, middle name, last name):")
print(top10_words)
top_countries <- data %>%
distinct(`Profile.Name`, `Profile.Nationality`) %>%
count(Национальность = `Profile.Nationality`, sort = TRUE) %>%
head(10)
print("Cтраны, отсортированные по числу астронавтов (по убыванию):")
print(top_countries)
Результаты анализа
| Показатель | Значение |
|---|---|
| Всего записей о миссиях | 1181 |
| Уникальных астронавтов | 565 |
| Всего слов в уникальных именах | 1144 |
10 самых частых слов в именах астронавтов

| Слово | Частота |
|---|---|
| John | 39 |
| Charles | 25 |
| James | 22 |
| Robert | 22 |
| Michael | 21 |
| William | 19 |
| David | 18 |
| Thomas | 16 |
| Paul | 15 |
| Richard | 15 |
Топ-10 стран по числу астронавтов

| Страна | Количество астронавтов |
|---|---|
| U.S. | 360 |
| U.S.S.R/Russia | 121 |
| Japan | 11 |
| Germany | 11 |
| France | 9 |
| Italy | 8 |
| Canada | 8 |
| China | 6 |
| U.K. | 3 |
| Netherlands | 2 |
Комментарий
Датасет включает 1181 запись о полётах, в которых участвовал 565 уникальных астронавтов/космонавтов. Самые популярные слова в именах – традиционные английские имена (John, Charles, James). Среди стран абсолютное лидерство у США (360 астронавтов), затем Россия/СССР (121). Интересно, что Германия и Япония имеют одинаковое количество (11), а Китай представлен 6 астронавтами.
