Анализ датасета с помощью R-скрипта Михайлова Софья

Материал из Поле цифровой дидактики

Описание датасета

Для анализа был взят датасет https://digida.mgpu.ru/index.php/Video_games_(dataset), который содержит информацию о видеоиграх, их жанрах, издателях, платформах, годах выпуска и временных характеристиках прохождения.

В датасете содержатся следующие поля:

  • "Title" — Название
  • "Features.Handheld?" — Возможность игры на портативных устройствах
  • "Features.Max Players" — Максимальное число игроков
  • "Features.Multiplatform?" — Доступность на разных платформах
  • "Features.Online?" — Наличие онлайн-режима
  • "Metadata.Genres" — Жанры игр (может быть несколько)
  • "Metadata.Licensed?" — Наличие официальной лицензии
  • "Metadata.Publishers" — Издатели
  • "Metadata.Sequel?" — Является ли игра сиквелом
  • "Metrics.Review Score" — Средняя оценка критиков
  • "Metrics.Sales" — Продажи в миллионах копий
  • "Metrics.Used Price" — Средняя цена на вторичном рынке
  • "Release.Console" — Платформа
  • "Release.Rating" — Возрастной рейтинг
  • "Release.Re-release?" — Является ли игра переизданием
  • "Release.Year" — Год выпуска
  • "Length.All PlayStyles.Average", "Length.All PlayStyles.Leisure", "Length.All PlayStyles.Median" и т.д. — Показатели времени прохождения для разных стилей игры

Код R-скрипта

library(tidyverse)

data <- read_csv("https://corgis-edu.github.io/corgis/datasets/csv/video_games/video_games.csv")

glimpse(data)

total_records <- nrow(data)
print(paste("Всего записей о видеоиграх:", total_records))

unique_games <- data %>%
  distinct(Title) %>%
  nrow()
print(paste("Уникальных видеоигр в датасете:", unique_games))

unique_titles <- data %>%
  distinct(Title) %>%
  pull(Title)

words <- str_split(unique_titles, " ") %>%
  unlist() %>%
  str_replace_all("[^A-Za-z0-9]", "") %>%
  .[. != ""]

total_words <- length(words)
print(paste("Всего слов в уникальных названиях видеоигр:", total_words))

top20_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:20])
colnames(top20_words) <- c("Слово", "Частота")
rownames(top20_words) <- NULL

print("Самые частые слова в названиях видеоигр:")
print(top20_words)

top20_genres <- data %>%
  separate_rows(Metadata.Genres, sep = ",") %>%
  mutate(Metadata.Genres = str_trim(Metadata.Genres)) %>%
  count(Жанр = Metadata.Genres, sort = TRUE) %>%
  head(20)

print("Жанры видеоигр:")
print(top20_genres)

top20_publishers <- data %>%
  separate_rows(Metadata.Publishers, sep = ",") %>%
  mutate(Metadata.Publishers = str_trim(Metadata.Publishers)) %>%
  count(Издатель = Metadata.Publishers, sort = TRUE) %>%
  filter(Издатель != "") %>%
  head(20)

print("Издатели видеоигр:")
print(top20_publishers)

top20_consoles <- data %>%
  count(Консоль = Release.Console, sort = TRUE) %>%
  head(20)

print("Консоли по числу игр:")
print(top20_consoles)

top20_years <- data %>%
  count(Год = Release.Year, sort = TRUE) %>%
  head(20)

print("Годы выпуска по числу игр:")
print(top20_years)

Скриншоты из R-studio

Результаты анализа

Показатель Значение
Всего записей о видеоиграх 1212
Уникальных видеоигр 900
Всего слов в уникальных названиях 3154

Самые частые слова в названиях видеоигр

Анализ показал, что в названиях видеоигр наиболее часто встречаются артикли, предлоги и цифры, обозначающие порядковые номера частей. Самые частые элементы:

Слово Частота
of 121
The 88
the 60
2 59
3 26
DS 21
Dragon 17
for 17
in 17
Star 17
Wars 17
NBA 16
World 16
Fantasy 14
Warriors 14
Game 13
Mario 13
Super 13
Final 12
II 12

Выводы по названиям:

  • В названиях часто встречаются цифры, обозначающие порядковый номер игры (2, 3, II).
  • Игровая серия "Star Wars" занимает заметное место.
  • Слова "Super", "Mario", "Final" и "Fantasy" отражают популярность серии игр "Super Mario" и "Final Fantasy".
  • Наличие "DS" говорит о популярности данной платформы.

Жанры видеоигр

Распределение игр по жанрам показывает значительное доминирование экшн-игр:

Жанр Количество игр
Action 730
Sports 238
Strategy 159
Role-Playing (RPG) 154
Racing / Driving 145
Simulation 116
Adventure 73
Educational 7

Выводы по жанрам:

  • Жанр Action является абсолютным лидером (730 игр).
  • Спортивные игры занимают второе место (238 игр).
  • Стратегии и RPG имеют примерно одинаковое количество игр (159 и 154 соответственно).
  • Присутствуют и образовательные игры (7 игр), что говорит о разнообразии выборки.

Издатели видеоигр

Лидирующие позиции занимают крупные международные издатели:

Издатель Количество игр
EA 168
Ubisoft 95
Activision 89
Nintendo 89
Sega 77
Sony 66
THQ 61
2K 49
Konami 48
Namco 42
Capcom 37
SquareEnix 33
Atari 24
Midway 23
Eidos 22
Microsoft 22
Rockstar 13
Disney 10

Выводы по издателям:

  • EA является крупнейшим издателем в датасете (168 игр).
  • Ubisoft, Activision и Nintendo имеют почти одинаковое количество игр (около 90).
  • Присутствуют как японские (Nintendo, Sega, Sony, Konami, Capcom, SquareEnix), так и американские и европейские издатели.

Консоли по числу игр

Наиболее популярными платформами являются портативные консоли и консоли седьмого поколения:

Консоль Количество игр
Nintendo DS 317
X360 287
Sony PSP 242
Nintendo Wii 187
PlayStation 3 179

Выводы по платформам:

  • Nintendo DS является самой популярной платформой в датасете (317 игр).
  • X360 и Sony PSP также имеют большое количество игр (287 и 242 соответственно).
  • Консоли седьмого поколения (X360, Wii, PS3) представлены широко.

Годы выпуска по числу игр

Пик выпуска игр в датасете приходится на 2007-2008 годы:

Год выпуска Количество игр
2007 414
2008 379
2006 263
2005 134
2004 22

Выводы по годам выпуска:

  • Наибольшее количество игр в датасете было выпущено в 2007 году (414 игр).
  • 2008 год также является очень продуктивным (379 игр).
  • В датасете представлены игры, выпущенные в период с 2004 по 2008 год.

Общие выводы

  1. Объём данных: Датасет содержит 1212 записей о видеоиграх, из которых 900 уникальных.
  2. Названия игр: В названиях часто встречаются порядковые номера (2, 3) и слова, связанные с популярными игровыми сериями.
  3. Жанры: Абсолютное лидерство жанра Action, за которым следуют Sports и Strategy.
  4. Издатели: EA является самым крупным издателем, за ним следуют Ubisoft, Activision и Nintendo.
  5. Платформы: Наибольшее количество игр выпущено для портативной консоли Nintendo DS.
  6. Хронология: Пик выпуска игр в датасете приходится на 2007-2008 годы.

Эти результаты могут быть полезны для анализа рынка видеоигр, изучения предпочтений игроков и понимания индустрии в целом.