R-script Климова: различия между версиями
Нет описания правки |
|||
| Строка 84: | Строка 84: | ||
fms, sam, plo, v, sb, transp — единичные или малочисленные категории, возможно, специфические для отдельных стран или программ | fms, sam, plo, v, sb, transp — единичные или малочисленные категории, возможно, специфические для отдельных стран или программ | ||
[[Категория:CompLing Works]] | |||
Текущая версия от 12:06, 15 июня 2026
Анализ датасета по ядерным взрывам
Источник датасета: https://corgis-edu.github.io/corgis/datasets/csv/nuclear_explosions/nuclear_explosions.csv
Датасет содержит записи о ядерных испытаниях.
Код программы
library(tidyverse)
library(tidytext)
file_url <- "https://corgis-edu.github.io/corgis/datasets/csv/nuclear_explosions/nuclear_explosions.csv"
data <- read_csv(file_url, show_col_types = FALSE)
glimpse(data)
total_words <- data %>%
filter(!is.na(Data.Purpose)) %>%
unnest_tokens(word, Data.Purpose) %>%
nrow()
cat("\nОбщее количество слов:", total_words, "\n")
top_10_words <- data %>%
filter(!is.na(Data.Purpose)) %>%
unnest_tokens(word, Data.Purpose) %>%
count(word, sort = TRUE) %>%
head(10)
cat("\nТоп-10 самых частотных слов:\n")
print(top_10_words)
Вывод программы
Rows: 2,046 Columns: 16
- $ Location.Country <chr> "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USSR", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USSR", "USSR", "U…
- $ Location.Region <chr> "Alamogordo", "Hiroshima", "Nagasaki", "Bikini", "Bikini", "Enewetak", "Enewetak", "Enewetak", "Semi Kazakh", "Nts", "Nts", "Nts", "Nts", "Nts", …
- $ Data.Source <chr> "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE"…
- $ Location.Coordinates.Latitude <dbl> 32.54, 34.23, 32.45, 11.35, 11.35, 11.30, 11.30, 11.30, 48.00, 37.00, 37.00, 37.00, 37.00, 37.00, 11.30, 11.30, 11.30, 11.30, 48.00, 48.00, 37.00…
- $ Location.Coordinates.Longitude <dbl> -105.57, 132.27, 129.52, 165.20, 165.20, 162.15, 162.15, 162.15, 76.00, -116.00, -116.00, -116.00, -116.00, -116.00, 162.15, 162.15, 162.15, 162.…
- $ Data.Magnitude.Body <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
- $ Data.Magnitude.Surface <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
- $ `Location.Coordinates .Depth` <dbl> -0.100, -0.600, -0.600, -0.200, 0.030, -0.080, -0.080, -0.080, 0.000, -0.350, -0.350, -0.350, -0.400, -0.500, -0.100, -0.100, -0.070, -0.070, 0.0…
- $ Data.Yield.Lower <dbl> 21.0, 15.0, 21.0, 21.0, 21.0, 37.0, 49.0, 18.0, 22.0, 1.0, 8.0, 1.0, 8.0, 22.0, 81.0, 47.0, 225.0, 45.5, 38.0, 42.0, 0.0, 3.5, 14.0, 21.0, 31.0, …
- $ Data.Yield.Upper <dbl> 21.0, 15.0, 21.0, 21.0, 21.0, 37.0, 49.0, 18.0, 22.0, 1.0, 8.0, 1.0, 8.0, 22.0, 81.0, 47.0, 225.0, 45.5, 38.0, 42.0, 0.1, 3.5, 14.0, 21.0, 31.0, …
- $ Data.Purpose <chr> "Wr", "Combat", "Combat", "We", "We", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr",…
- $ Data.Name <chr> "Trinity", "Littleboy", "Fatman", "Able", "Baker", "X-Ray", "Yoke", "Zebra", "Nan", "Able", "Baker", "Easy", "Baker2", "Fox", "Dog", "Easy", "Geo…
- $ Data.Type <chr> "Tower", "Airdrop", "Airdrop", "Airdrop", "Uw", "Tower", "Tower", "Tower", "Surface", "Airdrop", "Airdrop", "Airdrop", "Airdrop", "Airdrop", "Tow…
- $ Date.Day <dbl> 16, 5, 9, 30, 24, 14, 30, 14, 29, 27, 28, 1, 2, 6, 7, 20, 8, 24, 24, 18, 22, 28, 30, 1, 5, 19, 29, 1, 15, 22, 1, 7, 25, 1, 5, 3, 31, 15, 17, 24, …
- $ Date.Month <dbl> 7, 8, 8, 6, 7, 4, 4, 5, 8, 1, 1, 2, 2, 2, 4, 4, 5, 5, 9, 10, 10, 10, 10, 11, 11, 11, 11, 4, 4, 4, 5, 5, 5, 6, 6, 10, 10, 11, 3, 3, 3, 4, 4, 4, 4,…
- $ Date.Year <dbl> 1945, 1945, 1945, 1946, 1946, 1948, 1948, 1948, 1949, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1…
Общее количество слов: 2132
Топ-10 самых частотных слов:
1 wr 1533 2 pne 192 3 we 190 4 se 84 5 fms 41 6 sam 34 7 plo 27 8 v 7 9 sb 5 10 transp 4
Результаты анализа
Можно заметить, что анализ показал среди частотных слов непонятные наборы букв, однако, на самом деле - это коды, обозначающие назначение испытаний.
Принимая это во внимание можно заключить следующее:
Абсолютное доминирование военных целей
Слово wr (разработка оружия) встречается 1 533 раза — это 72% от всех слов в корпусе. Это подтверждает, что подавляющее большинство ядерных взрывов в истории были военными испытаниями.
Мирные взрывы - заметное, но небольшое меньшинство
pne (мирные взрывы) - 192 вхождения (9% от всех слов). Это связано с программами СССР и США по использованию ядерных взрывов в мирных целях (создание каналов, водохранилищ, сейсмическое зондирование).
Испытания на эффекты оружия
we (weapons effects) — 190 вхождений (почти столько же, сколько мирных взрывов). Эти испытания изучали воздействие ядерного взрыва на различные объекты (технику, здания, биологические объекты).
Редкие категории
se (safety experiment) — 84 взрыва (проверка безопасности, предотвращение случайной детонации)
fms, sam, plo, v, sb, transp — единичные или малочисленные категории, возможно, специфические для отдельных стран или программ
