R-script анализ датасета Жильцов Даниил
Описание датасета
Для анализа был взят датасет Astronauts, который содержит информацию о космонавтах и астронавтах, их миссиях, продолжительности полётов и выходах в открытый космос.
В датасете содержатся следующие поля:
- "Profile.Astronaut Numbers.Overall"
- "Profile.Astronaut Numbers.Nationwide"
- "Profile.Name"
- "Profile.Gender"
- "Profile.Birth Year"
- "Profile.Nationality"
- "Profile.Military"
- "Profile.Selection.Group"
- "Profile.Selection.Year"
- "Profile.Lifetime Statistics.Mission count"
- "Mission.Role"
- "Mission.Year"
- "Mission.Name"
- "Mission.Vechicles.Ascent"
- "Mission.Vechicles.Orbit"
- "Mission.Vechicles.Decent"
- "Mission.Durations.Mission duration"
- "Profile.Lifetime Statistics.Mission duration"
- "Mission.Durations.EVA duration"
- "Profile.Lifetime Statistics.EVA duration"
Источник датасета — страница Категория:Dataset. Ссылка на датасет на Corgis: Corgis Dataset.
Код R-скрипта
library(tidyverse)
data <- read_csv("https://corgis-edu.github.io/corgis/datasets/csv/astronauts/astronauts.csv")
glimpse(data)
total_records <- nrow(data)
print(paste("Всего записей о миссиях:", total_records))
unique_astronauts <- data %>%
distinct(`Profile.Name`) %>%
nrow()
print(paste("Уникальных астронавтов в датасете:", unique_astronauts))
unique_names <- data %>%
distinct(`Profile.Name`) %>%
pull(`Profile.Name`)
words <- str_split(unique_names, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z]", "") %>%
.[. != ""]
total_words <- length(words)
print(paste("Всего слов в уникальных именах астронавтов:", total_words))
top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
rownames(top10_words) <- NULL
print("Самые часто встречающиеся имена (First name, middle name, last name):")
print(top10_words)
top_countries <- data %>%
distinct(`Profile.Name`, `Profile.Nationality`) %>%
count(Национальность = `Profile.Nationality`, sort = TRUE) %>%
head(10)
print("Cтраны, отсортированные по числу астронавтов (по убыванию):")
print(top_countries)
Код программы в RStudio
Вывод программы в RStudio
Результаты анализа

| Показатель | Значение |
|---|---|
| Всего записей о миссиях | 1270 |
| Уникальных астронавтов | 559 |
| Всего слов в уникальных именах | 1516 |
Самые часто встречающиеся имена (First name, middle name, last name)

Анализ показал, что в именах астронавтов доминируют не столько полные имена, сколько инициалы и сокращения. Это связано с тем, что в датасете многие астронавты указаны с инициалами (например, "John H. Jr.", "M. Scott Carpenter"). Самые частые элементы:
| Слово | Частота |
|---|---|
| Jr. | 34 |
| J | 31 |
| L | 27 |
| M | 27 |
| A | 25 |
| D | 24 |
| E | 22 |
| Michael | 18 |
| James | 16 |
| R | 16 |
Выводы по именам:
- Инициалы (J, L, M, A, D, E, R) встречаются чаще, чем полные имена. Это особенность записи имён в датасете.
- Среди полных имён лидируют **Michael** (18 раз) и **James** (16 раз).
- Обращение "Jr." (младший) встречается 34 раза — очень часто для американских астронавтов.
Топ-10 стран по числу астронавтов
Распределение астронавтов по странам показывает значительное доминирование двух космических держав:
| Страна | Количество астронавтов |
|---|---|
| U.S. | 341 |
| U.S.S.R/Russia | 122 |
| Japan | 12 |
| China | 11 |
| Germany | 11 |
| Canada | 10 |
| France | 10 |
| Italy | 7 |
| Belgium | 2 |
| Bulgaria | 2 |
Выводы по странам:
- США занимают абсолютное первое место — **341 астронавт** (более 60% от всех уникальных).
- На втором месте — **Россия / СССР** (122 астронавта).
- Далее следуют **Япония** (12), **Китай** (11) и **Германия** (11).
- **Канада** и **Франция** имеют по 10 астронавтов.
- Интересно, что **Бельгия** и **Болгария** (по 2) замыкают десятку, что говорит о широкой международной представленности, но с небольшим числом участников.
Общие выводы
1. **Объём данных**: Датасет содержит 1270 записей о миссиях, в которых участвовал 559 уникальных астронавтов. 2. **Именные особенности**: Из-за формата хранения имён (с инициалами) в топе часто встречаются однобуквенные инициалы. Среди полных имён наиболее популярны Michael и James. 3. **География**: Абсолютное лидерство США и России, однако присутствуют астронавты из 10+ стран, включая Японию, Китай, Германию, Канаду, Францию, Италию и даже Бельгию с Болгарией. 4. **Ценность датасета**: Позволяет анализировать не только демографию, но и миссии, длительность полётов, выходы в космос.
Эти результаты могут быть полезны для дальнейшего изучения истории космонавтики и международного сотрудничества в космосе.


