R-script Стулин

Материал из Поле цифровой дидактики

Описание датасета

Для анализа был взят датасет Metacritic Games, содержащий информацию о видеоиграх: название, платформа, дата выхода, оценка Metacritic, пользовательский рейтинг, разработчик, издатель и жанр.

Код R-скрипта

library(readr)
library(dplyr)
library(tidytext)

# 1. Загрузка данных
games <- read_csv("metacritic_dataset_raw.csv")

# 2. Структура данных
glimpse(games)

# 3. Подсчёт слов в жанрах
word_counts <- games %>%
  filter(!is.na(genre)) %>%
  select(genre) %>%
  unnest_tokens(word, genre) %>%
  anti_join(stop_words, by = "word") %>%
  count(word, sort = TRUE)

# 4. Общее количество слов в корпусе
total_words <- sum(word_counts$n)
cat("Общее количество слов (вхождений):", total_words, "\n")
cat("Количество уникальных слов:", nrow(word_counts), "\n")

# 5. Топ-10 самых частых слов
top10 <- head(word_counts, 10)
print(top10)

Вывод программы в RStudio

Вывод программы в RStudio

Анализ показывает, какие игровые системы имеют самую большую библиотеку игр в датасете:

Жанр Количество игр
action 7030
adventure 5451
platformer 3146
2d 3031
sim 2739
rpg 2675
fps 2046
person 2046
racing 2036
em 1949
Показатель Значение
Всего игр в датасете 1387
Уникальных игровых платформ 5

Общие выводы

  1. Объём данных: Датасет содержит 1387 игр на 5 различных платформах.
  2. Общее количество слов‑вхождений в жанрах: 10 296.
  3. Топ‑10 самых частых слов: action, world, fighting, rpg, adventure, fps, sim, racing, sports, shooting.
  4. Ценность датасета: Позволяет анализировать связь между платформой и успехом игр.