R-script Хадижа

Материал из Поле цифровой дидактики
Версия от 13:40, 13 июня 2026; Асадова Хадижа (обсуждение | вклад) (Новая страница: «== Описание корпуса == На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru: * Sorting Things Out * On memory * Literacy and Education == R-скрипт == <syntaxhighlight lang="R" line> library(tidyverse) library(tidytext) # 1. Загрузка данных data <- read_csv("corpus.csv") # 2. Структура данных glimpse(d...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)

Описание корпуса

На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:

R-скрипт

library(tidyverse)
library(tidytext)

# 1. Загрузка данных
data <- read_csv("corpus.csv")

# 2. Структура данных
glimpse(data)

# 3. Общее количество слов в корпусе
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  summarise(total = sum(word_count))

# 4. Слов по каждому тексту
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  select(title, author, year, word_count)

# 5. Топ-10 самых частых слов
data %>%
  unnest_tokens(word, text) %>%
  count(word, sort = TRUE) %>%
  head(10)

Результаты

Показатель Значение
Всего слов в корпусе 102
Слов в Sorting Things Out 31
Слов в On memory 33
Слов в Literacy and Education 38

Топ-10 самых частых слов:

Слово Частота
and 3
literacy 3
the 3
и 3
a 2
as 2
how 2
информацию 2
памяти 2
be 1

Выводы

Корпус состоит из трёх текстов, общий объём — 102 слова. Наиболее частотные слова — служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса.