R-script анализ датасета Жильцов Даниил: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «== Описание датасета == Датасет '''Astronauts''' содержит информацию о космонавтах и астронавтах, их миссиях, продолжительности полётов и выходах в открытый космос. Источник: [https://corgis-edu.github.io/corgis/datasets/csv/astronauts/astronauts.csv Corgis Dataset]. Датасет был взят с :Категория:Dataset...»
 
 
(не показано 27 промежуточных версий этого же участника)
Строка 1: Строка 1:
== Описание датасета ==
== Описание датасета ==


Датасет '''Astronauts''' содержит информацию о космонавтах и астронавтах, их миссиях, продолжительности полётов и выходах в открытый космос. Источник: [https://corgis-edu.github.io/corgis/datasets/csv/astronauts/astronauts.csv Corgis Dataset].
Для анализа был взят датасет '''Astronauts''', который содержит информацию о космонавтах и астронавтах, их миссиях, продолжительности полётов и выходах в открытый космос.


Датасет был взят с [[:Категория:Dataset]].
В датасете содержатся следующие поля:
* "Profile.Astronaut Numbers.Overall"
* "Profile.Astronaut Numbers.Nationwide"
* "Profile.Name"
* "Profile.Gender"
* "Profile.Birth Year"
* "Profile.Nationality"
* "Profile.Military"
* "Profile.Selection.Group"
* "Profile.Selection.Year"
* "Profile.Lifetime Statistics.Mission count"
* "Mission.Role"
* "Mission.Year"
* "Mission.Name"
* "Mission.Vechicles.Ascent"
* "Mission.Vechicles.Orbit"
* "Mission.Vechicles.Decent"
* "Mission.Durations.Mission duration"
* "Profile.Lifetime Statistics.Mission duration"
* "Mission.Durations.EVA duration"
* "Profile.Lifetime Statistics.EVA duration"
 
Источник датасета — страница [[:Категория:Dataset]]. 
Ссылка на датасет на Corgis: [https://corgis-edu.github.io/corgis/datasets/csv/astronauts/astronauts.csv Corgis Dataset].


== Код R-скрипта ==
== Код R-скрипта ==
[[Файл:Код R.png|400px|thumb|right|Код R-скрипта в RStudio]]
<syntaxhighlight lang="R" line>
<syntaxhighlight lang="R" line>
library(tidyverse)
library(tidyverse)
Строка 50: Строка 71:
print(top_countries)
print(top_countries)
</syntaxhighlight>
</syntaxhighlight>
=== Код программы в RStudio ===
[[Файл:Rstudio1.png|Код программы в RStudio]]
=== Вывод программы в RStudio ===
[[Файл:Rstudio2.png|Вывод программы в Rstudio]]


== Результаты анализа ==
== Результаты анализа ==
[[Файл:Rstudio3.png|мини|Вывод в Rstudio]]


{| class="wikitable"
{| class="wikitable"
! Показатель !! Значение
! Показатель !! Значение
|-
|-
| Всего записей о миссиях || 1181
| Всего записей о миссиях || 1270
|-
|-
| Уникальных астронавтов || 565
| Уникальных астронавтов || 559
|-
|-
| Всего слов в уникальных именах || 1144
| Всего слов в уникальных именах || 1516
|}
|}


=== 10 самых частых слов в именах астронавтов ===


[[Файл:Результаты1 R.png|300px|thumb|right|Результаты в консоли R]]
=== Самые часто встречающиеся имена (First name, middle name, last name) ===
[[Файл:Rstudio4.png|мини|Вывод в Rstudio]]
 
Анализ показал, что в именах астронавтов доминируют не столько полные имена, сколько инициалы и сокращения. Это связано с тем, что в датасете многие астронавты указаны с инициалами (например, "John H. Jr.", "M. Scott Carpenter"). Самые частые элементы:


{| class="wikitable"
{| class="wikitable"
! Слово !! Частота
! Слово !! Частота
|-
|-
| John || 39
| Jr. || 34
|-
|-
| Charles || 25
| J || 31
|-
|-
| James || 22
| L || 27
|-
|-
| Robert || 22
| M || 27
|-
|-
| Michael || 21
| A || 25
|-
|-
| William || 19
| D || 24
|-
|-
| David || 18
| E || 22
|-
|-
| Thomas || 16
| Michael || 18
|-
|-
| Paul || 15
| James || 16
|-
|-
| Richard || 15
| R || 16
|}
|}


=== Топ-10 стран по числу астронавтов ===
'''Выводы по именам:'''
* Инициалы (J, L, M, A, D, E, R) встречаются чаще, чем полные имена. Это особенность записи имён в датасете.
* Среди полных имён лидируют Michael (18 раз) и James (16 раз).
* Обращение "Jr." (младший) встречается 34 раза, очень часто для американских астронавтов.
 
=== Cтраны, отсортированные по числу астронавтов (по убыванию) ===
[[Файл:Rstudio5.png|мини|Выводы в Rstudio]]


[[Файл:Результаты2 R.png|300px|thumb|right|Топ-10 стран по числу астронавтов]]
Распределение астронавтов по странам показывает значительное доминирование двух космических держав:


{| class="wikitable"
{| class="wikitable"
! Страна !! Количество астронавтов
! Страна !! Количество астронавтов
|-
|-
| U.S. || 360
| U.S. || 341
|-
|-
| U.S.S.R/Russia || 121
| U.S.S.R/Russia || 122
|-
|-
| Japan || 11
| Japan || 12
|-
| China || 11
|-
|-
| Germany || 11
| Germany || 11
|-
|-
| France || 9
| Canada || 10
|-
|-
| Italy || 8
| France || 10
|-
|-
| Canada || 8
| Italy || 7
|-
|-
| China || 6
| Belgium || 2
|-
|-
| U.K. || 3
| Bulgaria || 2
|-
| Netherlands || 2
|}
|}


== Комментарий ==
'''Выводы по странам:'''
* США занимают абсолютное первое место — 341 астронавт (более 60% от всех уникальных).
* На втором месте — Россия / СССР (122 астронавта).
* Далее следуют Япония (12), Китай (11) и Германия (11).
* Канада и Франция имеют по 10 астронавтов, а в Италии - 7 астронавтов.
* Интересно, что Бельгия и Болгария (по 2) замыкают десятку, что говорит о широкой международной представленности, но с небольшим числом участников.
 
=== Общие выводы ===
 
# Объём данных: Датасет содержит 1270 записей о миссиях, в которых участвовал 559 уникальных астронавтов.
# Именные особенности: Из-за формата хранения имён (с инициалами) в топе часто встречаются однобуквенные инициалы. Среди полных имён наиболее популярны Michael и James.
# География: Абсолютное лидерство США и России, однако присутствуют астронавты из 10+ стран, включая Японию, Китай, Германию, Канаду, Францию, Италию и даже Бельгию с Болгарией.
# Ценность датасета: Позволяет анализировать не только демографию, но и миссии, длительность полётов, выходы в космос.


Датасет включает 1181 запись о полётах, в которых участвовал 565 уникальных астронавтов/космонавтов. Самые популярные слова в именах – традиционные английские имена (John, Charles, James). Среди стран абсолютное лидерство у США (360 астронавтов), затем Россия/СССР (121). Интересно, что Германия и Япония имеют одинаковое количество (11), а Китай представлен 6 астронавтами.
Эти результаты могут быть полезны для дальнейшего изучения истории космонавтики и международного сотрудничества в космосе.


[[Категория:CompLing Works]]
[[Категория:CompLing Works]]

Текущая версия от 14:51, 8 июня 2026

Описание датасета

Для анализа был взят датасет Astronauts, который содержит информацию о космонавтах и астронавтах, их миссиях, продолжительности полётов и выходах в открытый космос.

В датасете содержатся следующие поля:

  • "Profile.Astronaut Numbers.Overall"
  • "Profile.Astronaut Numbers.Nationwide"
  • "Profile.Name"
  • "Profile.Gender"
  • "Profile.Birth Year"
  • "Profile.Nationality"
  • "Profile.Military"
  • "Profile.Selection.Group"
  • "Profile.Selection.Year"
  • "Profile.Lifetime Statistics.Mission count"
  • "Mission.Role"
  • "Mission.Year"
  • "Mission.Name"
  • "Mission.Vechicles.Ascent"
  • "Mission.Vechicles.Orbit"
  • "Mission.Vechicles.Decent"
  • "Mission.Durations.Mission duration"
  • "Profile.Lifetime Statistics.Mission duration"
  • "Mission.Durations.EVA duration"
  • "Profile.Lifetime Statistics.EVA duration"

Источник датасета — страница Категория:Dataset. Ссылка на датасет на Corgis: Corgis Dataset.

Код R-скрипта

library(tidyverse)

data <- read_csv("https://corgis-edu.github.io/corgis/datasets/csv/astronauts/astronauts.csv")

glimpse(data)

total_records <- nrow(data)
print(paste("Всего записей о миссиях:", total_records))

unique_astronauts <- data %>%
  distinct(`Profile.Name`) %>%
  nrow()
print(paste("Уникальных астронавтов в датасете:", unique_astronauts))

unique_names <- data %>%
  distinct(`Profile.Name`) %>%
  pull(`Profile.Name`)

words <- str_split(unique_names, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z]", "") %>%  
  .[. != ""]

total_words <- length(words)
print(paste("Всего слов в уникальных именах астронавтов:", total_words))

top10_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:10])
colnames(top10_words) <- c("Слово", "Частота")
rownames(top10_words) <- NULL

print("Самые часто встречающиеся имена (First name, middle name, last name):")
print(top10_words)

top_countries <- data %>%
  distinct(`Profile.Name`, `Profile.Nationality`) %>%
  count(Национальность = `Profile.Nationality`, sort = TRUE) %>%
  head(10)

print("Cтраны, отсортированные по числу астронавтов (по убыванию):")
print(top_countries)

Код программы в RStudio

Код программы в RStudio

Вывод программы в RStudio

Вывод программы в Rstudio

Результаты анализа

Вывод в Rstudio
Показатель Значение
Всего записей о миссиях 1270
Уникальных астронавтов 559
Всего слов в уникальных именах 1516


Самые часто встречающиеся имена (First name, middle name, last name)

Вывод в Rstudio

Анализ показал, что в именах астронавтов доминируют не столько полные имена, сколько инициалы и сокращения. Это связано с тем, что в датасете многие астронавты указаны с инициалами (например, "John H. Jr.", "M. Scott Carpenter"). Самые частые элементы:

Слово Частота
Jr. 34
J 31
L 27
M 27
A 25
D 24
E 22
Michael 18
James 16
R 16

Выводы по именам:

  • Инициалы (J, L, M, A, D, E, R) встречаются чаще, чем полные имена. Это особенность записи имён в датасете.
  • Среди полных имён лидируют Michael (18 раз) и James (16 раз).
  • Обращение "Jr." (младший) встречается 34 раза, очень часто для американских астронавтов.

Cтраны, отсортированные по числу астронавтов (по убыванию)

Выводы в Rstudio

Распределение астронавтов по странам показывает значительное доминирование двух космических держав:

Страна Количество астронавтов
U.S. 341
U.S.S.R/Russia 122
Japan 12
China 11
Germany 11
Canada 10
France 10
Italy 7
Belgium 2
Bulgaria 2

Выводы по странам:

  • США занимают абсолютное первое место — 341 астронавт (более 60% от всех уникальных).
  • На втором месте — Россия / СССР (122 астронавта).
  • Далее следуют Япония (12), Китай (11) и Германия (11).
  • Канада и Франция имеют по 10 астронавтов, а в Италии - 7 астронавтов.
  • Интересно, что Бельгия и Болгария (по 2) замыкают десятку, что говорит о широкой международной представленности, но с небольшим числом участников.

Общие выводы

  1. Объём данных: Датасет содержит 1270 записей о миссиях, в которых участвовал 559 уникальных астронавтов.
  2. Именные особенности: Из-за формата хранения имён (с инициалами) в топе часто встречаются однобуквенные инициалы. Среди полных имён наиболее популярны Michael и James.
  3. География: Абсолютное лидерство США и России, однако присутствуют астронавты из 10+ стран, включая Японию, Китай, Германию, Канаду, Францию, Италию и даже Бельгию с Болгарией.
  4. Ценность датасета: Позволяет анализировать не только демографию, но и миссии, длительность полётов, выходы в космос.

Эти результаты могут быть полезны для дальнейшего изучения истории космонавтики и международного сотрудничества в космосе.