R-script Стулин
Материал из Поле цифровой дидактики
Описание датасета
Для анализа был взят датасет Metacritic Games, содержащий информацию о видеоиграх: название, платформа, дата выхода, оценка Metacritic, пользовательский рейтинг, разработчик, издатель и жанр.
Код R-скрипта
library(readr)
library(dplyr)
library(tidytext)
# 1. Загрузка данных
games <- read_csv("metacritic_dataset_raw.csv")
# 2. Структура данных
glimpse(games)
# 3. Подсчёт слов в жанрах
word_counts <- games %>%
filter(!is.na(genre)) %>%
select(genre) %>%
unnest_tokens(word, genre) %>%
anti_join(stop_words, by = "word") %>%
count(word, sort = TRUE)
# 4. Общее количество слов в корпусе
total_words <- sum(word_counts$n)
cat("Общее количество слов (вхождений):", total_words, "\n")
cat("Количество уникальных слов:", nrow(word_counts), "\n")
# 5. Топ-10 самых частых слов
top10 <- head(word_counts, 10)
print(top10)
Вывод программы в RStudio
Анализ показывает, какие игровые системы имеют самую большую библиотеку игр в датасете:
| Жанр | Количество игр |
|---|---|
| action | 7030 |
| adventure | 5451 |
| platformer | 3146 |
| 2d | 3031 |
| sim | 2739 |
| rpg | 2675 |
| fps | 2046 |
| person | 2046 |
| racing | 2036 |
| em | 1949 |
| Показатель | Значение |
|---|---|
| Всего игр в датасете | 1387 |
| Уникальных игровых платформ | 5 |
Общие выводы
- Объём данных: Датасет содержит 1387 игр на 5 различных платформах.
- Общее количество слов‑вхождений в жанрах: 10 296.
- Топ‑10 самых частых слов: action, world, fighting, rpg, adventure, fps, sim, racing, sports, shooting.
- Ценность датасета: Позволяет анализировать связь между платформой и успехом игр.
