R-script Хадижа
Материал из Поле цифровой дидактики
Описание корпуса
На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:
R-скрипт
library(tidyverse)
library(tidytext)
# 1. Загрузка данных
data <- read_csv("corpus.csv")
# 2. Структура данных
glimpse(data)
# 3. Общее количество слов в корпусе
data %>%
mutate(word_count = str_count(text, "\\S+")) %>%
summarise(total = sum(word_count))
# 4. Слов по каждому тексту
data %>%
mutate(word_count = str_count(text, "\\S+")) %>%
select(title, author, year, word_count)
# 5. Топ-10 самых частых слов
data %>%
unnest_tokens(word, text) %>%
count(word, sort = TRUE) %>%
head(10)
Результаты
| Показатель | Значение |
|---|---|
| Всего слов в корпусе | 102 |
| Слов в Sorting Things Out | 31 |
| Слов в On memory | 33 |
| Слов в Literacy and Education | 38 |
Топ-10 самых частых слов:
| Слово | Частота |
|---|---|
| and | 3 |
| literacy | 3 |
| the | 3 |
| и | 3 |
| a | 2 |
| as | 2 |
| how | 2 |
| информацию | 2 |
| памяти | 2 |
| be | 1 |
Выводы
Корпус состоит из трёх текстов, общий объём — 102 слова. Наиболее частотные слова — служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса.
