Анализ датасета с помощью R-скрипта Михайлова Софья
Описание датасета
Для анализа был взят датасет https://digida.mgpu.ru/index.php/Video_games_(dataset), который содержит информацию о видеоиграх, их жанрах, издателях, платформах, годах выпуска и временных характеристиках прохождения.
В датасете содержатся следующие поля:
- "Title" — Название
- "Features.Handheld?" — Возможность игры на портативных устройствах
- "Features.Max Players" — Максимальное число игроков
- "Features.Multiplatform?" — Доступность на разных платформах
- "Features.Online?" — Наличие онлайн-режима
- "Metadata.Genres" — Жанры игр (может быть несколько)
- "Metadata.Licensed?" — Наличие официальной лицензии
- "Metadata.Publishers" — Издатели
- "Metadata.Sequel?" — Является ли игра сиквелом
- "Metrics.Review Score" — Средняя оценка критиков
- "Metrics.Sales" — Продажи в миллионах копий
- "Metrics.Used Price" — Средняя цена на вторичном рынке
- "Release.Console" — Платформа
- "Release.Rating" — Возрастной рейтинг
- "Release.Re-release?" — Является ли игра переизданием
- "Release.Year" — Год выпуска
- "Length.All PlayStyles.Average", "Length.All PlayStyles.Leisure", "Length.All PlayStyles.Median" и т.д. — Показатели времени прохождения для разных стилей игры
Код R-скрипта
library(tidyverse)
data <- read_csv("https://corgis-edu.github.io/corgis/datasets/csv/video_games/video_games.csv")
glimpse(data)
total_records <- nrow(data)
print(paste("Всего записей о видеоиграх:", total_records))
unique_games <- data %>%
distinct(Title) %>%
nrow()
print(paste("Уникальных видеоигр в датасете:", unique_games))
unique_titles <- data %>%
distinct(Title) %>%
pull(Title)
words <- str_split(unique_titles, " ") %>%
unlist() %>%
str_replace_all("[^A-Za-z0-9]", "") %>%
.[. != ""]
total_words <- length(words)
print(paste("Всего слов в уникальных названиях видеоигр:", total_words))
top20_words <- as.data.frame(sort(table(words), decreasing = TRUE)[1:20])
colnames(top20_words) <- c("Слово", "Частота")
rownames(top20_words) <- NULL
print("Самые частые слова в названиях видеоигр:")
print(top20_words)
top20_genres <- data %>%
separate_rows(Metadata.Genres, sep = ",") %>%
mutate(Metadata.Genres = str_trim(Metadata.Genres)) %>%
count(Жанр = Metadata.Genres, sort = TRUE) %>%
head(20)
print("Жанры видеоигр:")
print(top20_genres)
top20_publishers <- data %>%
separate_rows(Metadata.Publishers, sep = ",") %>%
mutate(Metadata.Publishers = str_trim(Metadata.Publishers)) %>%
count(Издатель = Metadata.Publishers, sort = TRUE) %>%
filter(Издатель != "") %>%
head(20)
print("Издатели видеоигр:")
print(top20_publishers)
top20_consoles <- data %>%
count(Консоль = Release.Console, sort = TRUE) %>%
head(20)
print("Консоли по числу игр:")
print(top20_consoles)
top20_years <- data %>%
count(Год = Release.Year, sort = TRUE) %>%
head(20)
print("Годы выпуска по числу игр:")
print(top20_years)
Скриншоты из R-studio
Результаты анализа
| Показатель | Значение |
|---|---|
| Всего записей о видеоиграх | 1212 |
| Уникальных видеоигр | 900 |
| Всего слов в уникальных названиях | 3154 |
Самые частые слова в названиях видеоигр
Анализ показал, что в названиях видеоигр наиболее часто встречаются артикли, предлоги и цифры, обозначающие порядковые номера частей. Самые частые элементы:
| Слово | Частота |
|---|---|
| of | 121 |
| The | 88 |
| the | 60 |
| 2 | 59 |
| 3 | 26 |
| DS | 21 |
| Dragon | 17 |
| for | 17 |
| in | 17 |
| Star | 17 |
| Wars | 17 |
| NBA | 16 |
| World | 16 |
| Fantasy | 14 |
| Warriors | 14 |
| Game | 13 |
| Mario | 13 |
| Super | 13 |
| Final | 12 |
| II | 12 |
Выводы по названиям:
- В названиях часто встречаются цифры, обозначающие порядковый номер игры (2, 3, II).
- Игровая серия "Star Wars" занимает заметное место.
- Слова "Super", "Mario", "Final" и "Fantasy" отражают популярность серии игр "Super Mario" и "Final Fantasy".
- Наличие "DS" говорит о популярности данной платформы.
Жанры видеоигр
Распределение игр по жанрам показывает значительное доминирование экшн-игр:
| Жанр | Количество игр |
|---|---|
| Action | 730 |
| Sports | 238 |
| Strategy | 159 |
| Role-Playing (RPG) | 154 |
| Racing / Driving | 145 |
| Simulation | 116 |
| Adventure | 73 |
| Educational | 7 |
Выводы по жанрам:
- Жанр Action является абсолютным лидером (730 игр).
- Спортивные игры занимают второе место (238 игр).
- Стратегии и RPG имеют примерно одинаковое количество игр (159 и 154 соответственно).
- Присутствуют и образовательные игры (7 игр), что говорит о разнообразии выборки.
Издатели видеоигр
Лидирующие позиции занимают крупные международные издатели:
| Издатель | Количество игр |
|---|---|
| EA | 168 |
| Ubisoft | 95 |
| Activision | 89 |
| Nintendo | 89 |
| Sega | 77 |
| Sony | 66 |
| THQ | 61 |
| 2K | 49 |
| Konami | 48 |
| Namco | 42 |
| Capcom | 37 |
| SquareEnix | 33 |
| Atari | 24 |
| Midway | 23 |
| Eidos | 22 |
| Microsoft | 22 |
| Rockstar | 13 |
| Disney | 10 |
Выводы по издателям:
- EA является крупнейшим издателем в датасете (168 игр).
- Ubisoft, Activision и Nintendo имеют почти одинаковое количество игр (около 90).
- Присутствуют как японские (Nintendo, Sega, Sony, Konami, Capcom, SquareEnix), так и американские и европейские издатели.
Консоли по числу игр
Наиболее популярными платформами являются портативные консоли и консоли седьмого поколения:
| Консоль | Количество игр |
|---|---|
| Nintendo DS | 317 |
| X360 | 287 |
| Sony PSP | 242 |
| Nintendo Wii | 187 |
| PlayStation 3 | 179 |
Выводы по платформам:
- Nintendo DS является самой популярной платформой в датасете (317 игр).
- X360 и Sony PSP также имеют большое количество игр (287 и 242 соответственно).
- Консоли седьмого поколения (X360, Wii, PS3) представлены широко.
Годы выпуска по числу игр
Пик выпуска игр в датасете приходится на 2007-2008 годы:
| Год выпуска | Количество игр |
|---|---|
| 2007 | 414 |
| 2008 | 379 |
| 2006 | 263 |
| 2005 | 134 |
| 2004 | 22 |
Выводы по годам выпуска:
- Наибольшее количество игр в датасете было выпущено в 2007 году (414 игр).
- 2008 год также является очень продуктивным (379 игр).
- В датасете представлены игры, выпущенные в период с 2004 по 2008 год.
Общие выводы
- Объём данных: Датасет содержит 1212 записей о видеоиграх, из которых 900 уникальных.
- Названия игр: В названиях часто встречаются порядковые номера (2, 3) и слова, связанные с популярными игровыми сериями.
- Жанры: Абсолютное лидерство жанра Action, за которым следуют Sports и Strategy.
- Издатели: EA является самым крупным издателем, за ним следуют Ubisoft, Activision и Nintendo.
- Платформы: Наибольшее количество игр выпущено для портативной консоли Nintendo DS.
- Хронология: Пик выпуска игр в датасете приходится на 2007-2008 годы.
Эти результаты могут быть полезны для анализа рынка видеоигр, изучения предпочтений игроков и понимания индустрии в целом.




