R-script Климова: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «== Анализ датасета по ядерным взрывам == Источник датасета: https://corgis-edu.github.io/corgis/datasets/csv/nuclear_explosions/nuclear_explosions.csv Датасет содержит записи о ядерных испытаниях. == Код программы == <syntaxhighlight lang="R" line> library(tidyverse) library(tidytext) file_url <- "https://corgis-edu.github.io/corgis/datasets/csv/nuclear_explo...»
 
Строка 74: Строка 74:
Слово wr (разработка оружия) встречается 1 533 раза — это 72% от всех слов в корпусе. Это подтверждает, что подавляющее большинство ядерных взрывов в истории были военными испытаниями.
Слово wr (разработка оружия) встречается 1 533 раза — это 72% от всех слов в корпусе. Это подтверждает, что подавляющее большинство ядерных взрывов в истории были военными испытаниями.


=== Мирные взрывы заметное, но небольшое меньшинство ===
=== Мирные взрывы - заметное, но небольшое меньшинство ===
pne (мирные взрывы) 192 вхождения (9% от всех слов). Это связано с программами СССР и США по использованию ядерных взрывов в мирных целях (создание каналов, водохранилищ, сейсмическое зондирование).
pne (мирные взрывы) - 192 вхождения (9% от всех слов). Это связано с программами СССР и США по использованию ядерных взрывов в мирных целях (создание каналов, водохранилищ, сейсмическое зондирование).


=== Испытания на эффекты оружия ===
=== Испытания на эффекты оружия ===

Версия от 10:29, 15 июня 2026

Анализ датасета по ядерным взрывам

Источник датасета: https://corgis-edu.github.io/corgis/datasets/csv/nuclear_explosions/nuclear_explosions.csv

Датасет содержит записи о ядерных испытаниях.

Код программы

library(tidyverse)
library(tidytext)

file_url <- "https://corgis-edu.github.io/corgis/datasets/csv/nuclear_explosions/nuclear_explosions.csv"
data <- read_csv(file_url, show_col_types = FALSE)

glimpse(data)

total_words <- data %>%
  filter(!is.na(Data.Purpose)) %>%
  unnest_tokens(word, Data.Purpose) %>%
  nrow()

cat("\nОбщее количество слов:", total_words, "\n")

top_10_words <- data %>%
  filter(!is.na(Data.Purpose)) %>%
  unnest_tokens(word, Data.Purpose) %>%
  count(word, sort = TRUE) %>%
  head(10)

cat("\nТоп-10 самых частотных слов:\n")
print(top_10_words)

Вывод программы

Rows: 2,046 Columns: 16

  1. $ Location.Country <chr> "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USSR", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USA", "USSR", "USSR", "U…
  2. $ Location.Region <chr> "Alamogordo", "Hiroshima", "Nagasaki", "Bikini", "Bikini", "Enewetak", "Enewetak", "Enewetak", "Semi Kazakh", "Nts", "Nts", "Nts", "Nts", "Nts", …
  3. $ Data.Source <chr> "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE", "DOE"…
  4. $ Location.Coordinates.Latitude <dbl> 32.54, 34.23, 32.45, 11.35, 11.35, 11.30, 11.30, 11.30, 48.00, 37.00, 37.00, 37.00, 37.00, 37.00, 11.30, 11.30, 11.30, 11.30, 48.00, 48.00, 37.00…
  5. $ Location.Coordinates.Longitude <dbl> -105.57, 132.27, 129.52, 165.20, 165.20, 162.15, 162.15, 162.15, 76.00, -116.00, -116.00, -116.00, -116.00, -116.00, 162.15, 162.15, 162.15, 162.…
  6. $ Data.Magnitude.Body <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
  7. $ Data.Magnitude.Surface <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0…
  8. $ `Location.Coordinates .Depth` <dbl> -0.100, -0.600, -0.600, -0.200, 0.030, -0.080, -0.080, -0.080, 0.000, -0.350, -0.350, -0.350, -0.400, -0.500, -0.100, -0.100, -0.070, -0.070, 0.0…
  9. $ Data.Yield.Lower <dbl> 21.0, 15.0, 21.0, 21.0, 21.0, 37.0, 49.0, 18.0, 22.0, 1.0, 8.0, 1.0, 8.0, 22.0, 81.0, 47.0, 225.0, 45.5, 38.0, 42.0, 0.0, 3.5, 14.0, 21.0, 31.0, …
  10. $ Data.Yield.Upper <dbl> 21.0, 15.0, 21.0, 21.0, 21.0, 37.0, 49.0, 18.0, 22.0, 1.0, 8.0, 1.0, 8.0, 22.0, 81.0, 47.0, 225.0, 45.5, 38.0, 42.0, 0.1, 3.5, 14.0, 21.0, 31.0, …
  11. $ Data.Purpose <chr> "Wr", "Combat", "Combat", "We", "We", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr", "Wr",…
  12. $ Data.Name <chr> "Trinity", "Littleboy", "Fatman", "Able", "Baker", "X-Ray", "Yoke", "Zebra", "Nan", "Able", "Baker", "Easy", "Baker2", "Fox", "Dog", "Easy", "Geo…
  13. $ Data.Type <chr> "Tower", "Airdrop", "Airdrop", "Airdrop", "Uw", "Tower", "Tower", "Tower", "Surface", "Airdrop", "Airdrop", "Airdrop", "Airdrop", "Airdrop", "Tow…
  14. $ Date.Day <dbl> 16, 5, 9, 30, 24, 14, 30, 14, 29, 27, 28, 1, 2, 6, 7, 20, 8, 24, 24, 18, 22, 28, 30, 1, 5, 19, 29, 1, 15, 22, 1, 7, 25, 1, 5, 3, 31, 15, 17, 24, …
  15. $ Date.Month <dbl> 7, 8, 8, 6, 7, 4, 4, 5, 8, 1, 1, 2, 2, 2, 4, 4, 5, 5, 9, 10, 10, 10, 10, 11, 11, 11, 11, 4, 4, 4, 5, 5, 5, 6, 6, 10, 10, 11, 3, 3, 3, 4, 4, 4, 4,…
  16. $ Date.Year <dbl> 1945, 1945, 1945, 1946, 1946, 1948, 1948, 1948, 1949, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1951, 1…

Общее количество слов: 2132

Топ-10 самых частотных слов:

1 wr      1533
2 pne      192
3 we       190
4 se        84
5 fms       41
6 sam       34
7 plo       27
8 v          7
9 sb         5
10 transp     4

Результаты анализа

Можно заметить, что анализ показал среди частотных слов непонятные наборы букв, однако, на самом деле - это коды, обозначающие назначение испытаний.

Принимая это во внимание можно заключить следующее:

Абсолютное доминирование военных целей

Слово wr (разработка оружия) встречается 1 533 раза — это 72% от всех слов в корпусе. Это подтверждает, что подавляющее большинство ядерных взрывов в истории были военными испытаниями.

Мирные взрывы - заметное, но небольшое меньшинство

pne (мирные взрывы) - 192 вхождения (9% от всех слов). Это связано с программами СССР и США по использованию ядерных взрывов в мирных целях (создание каналов, водохранилищ, сейсмическое зондирование).

Испытания на эффекты оружия

we (weapons effects) — 190 вхождений (почти столько же, сколько мирных взрывов). Эти испытания изучали воздействие ядерного взрыва на различные объекты (технику, здания, биологические объекты).

Редкие категории

se (safety experiment) — 84 взрыва (проверка безопасности, предотвращение случайной детонации)

fms, sam, plo, v, sb, transp — единичные или малочисленные категории, возможно, специфические для отдельных стран или программ