R-script Хадижа: различия между версиями
Материал из Поле цифровой дидактики
Новая страница: «== Описание корпуса == На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru: * Sorting Things Out * On memory * Literacy and Education == R-скрипт == <syntaxhighlight lang="R" line> library(tidyverse) library(tidytext) # 1. Загрузка данных data <- read_csv("corpus.csv") # 2. Структура данных glimpse(d...» |
Нет описания правки |
||
| Строка 1: | Строка 1: | ||
== Описание | == Описание == | ||
На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru: | На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru: | ||
| Строка 34: | Строка 34: | ||
count(word, sort = TRUE) %>% | count(word, sort = TRUE) %>% | ||
head(10) | head(10) | ||
# 6. TTR (лексическое разнообразие) | |||
words <- data %>% | |||
unnest_tokens(word, text) %>% | |||
count(word, sort = TRUE) | |||
total_tokens <- sum(words$n) | |||
total_types <- nrow(words) | |||
ttr <- total_types / total_tokens | |||
cat("Токенов:", total_tokens, "\n") | |||
cat("Типов:", total_types, "\n") | |||
cat("TTR:", round(ttr, 4), "\n") | |||
# 7. Биграммы | |||
data %>% | |||
unnest_tokens(bigram, text, token = "ngrams", n = 2) %>% | |||
count(bigram, sort = TRUE) %>% | |||
head(10) | |||
# 8. График топ-10 слов | |||
words %>% | |||
head(10) %>% | |||
ggplot(aes(x = reorder(word, n), y = n)) + | |||
geom_col(fill = "steelblue") + | |||
coord_flip() + | |||
labs(title = "Топ-10 слов в корпусе", x = "Слово", y = "Частота") + | |||
theme_minimal() + | |||
theme(plot.title = element_text(hjust = 0.5, face = "bold")) | |||
</syntaxhighlight> | </syntaxhighlight> | ||
== Результаты == | == Результаты == | ||
=== Статистика корпуса === | |||
{| class="wikitable" | {| class="wikitable" | ||
| Строка 48: | Строка 79: | ||
|- | |- | ||
| Слов в ''Literacy and Education'' || 38 | | Слов в ''Literacy and Education'' || 38 | ||
|- | |||
| Всего токенов || 102 | |||
|- | |||
| Уникальных слов (типов) || 89 | |||
|- | |||
| TTR || 0.8725 | |||
|} | |} | ||
=== Топ-10 слов === | |||
{| class="wikitable" | {| class="wikitable" | ||
! Слово !! Частота | ! Слово !! Частота | ||
|- | |||
| и || 3 | |||
|- | |||
| the || 3 | |||
|- | |||
| literacy || 3 | |||
|- | |- | ||
| and || 3 | | and || 3 | ||
|- | |- | ||
| | | памяти || 2 | ||
|- | |||
| информацию || 2 | |||
|- | |- | ||
| | | how || 2 | ||
|- | |- | ||
| | | as || 2 | ||
|- | |- | ||
| a || 2 | | a || 2 | ||
|- | |- | ||
| as || 2 | | be || 1 | ||
|} | |||
=== Топ-10 биграмм === | |||
{| class="wikitable" | |||
! Биграмма !! Частота | |||
|- | |||
| as a || 2 | |||
|- | |||
| how literacy || 2 | |||
|- | |||
| a mental || 1 | |||
|- | |||
| a social || 1 | |||
|- | |||
| and cultural || 1 | |||
|- | |||
| and education || 1 | |||
|- | |- | ||
| | | and wandered || 1 | ||
|- | |- | ||
| | | be seen || 1 | ||
|- | |- | ||
| | | but as || 1 | ||
|- | |- | ||
| | | came to || 1 | ||
|} | |} | ||
=== Визуализация === | |||
[[Файл:Rplot.png|600px|center|frameless|Топ-10 слов в корпусе]] | |||
== Выводы == | == Выводы == | ||
Корпус состоит из трёх текстов | Корпус состоит из трёх текстов общим объёмом 102 слова. TTR равен 0.8725 — это очень высокий показатель, означающий что почти все слова в корпусе уникальны и лексика разнообразна. Среди частотных слов лидируют служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса. Топ биграммы «as a» и «how literacy» указывают на академический стиль текстов. | ||
[[Категория:CompLing Works]] | [[Категория:CompLing Works]] | ||
Текущая версия от 13:48, 13 июня 2026
Описание
На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:
R-скрипт
library(tidyverse)
library(tidytext)
# 1. Загрузка данных
data <- read_csv("corpus.csv")
# 2. Структура данных
glimpse(data)
# 3. Общее количество слов в корпусе
data %>%
mutate(word_count = str_count(text, "\\S+")) %>%
summarise(total = sum(word_count))
# 4. Слов по каждому тексту
data %>%
mutate(word_count = str_count(text, "\\S+")) %>%
select(title, author, year, word_count)
# 5. Топ-10 самых частых слов
data %>%
unnest_tokens(word, text) %>%
count(word, sort = TRUE) %>%
head(10)
# 6. TTR (лексическое разнообразие)
words <- data %>%
unnest_tokens(word, text) %>%
count(word, sort = TRUE)
total_tokens <- sum(words$n)
total_types <- nrow(words)
ttr <- total_types / total_tokens
cat("Токенов:", total_tokens, "\n")
cat("Типов:", total_types, "\n")
cat("TTR:", round(ttr, 4), "\n")
# 7. Биграммы
data %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2) %>%
count(bigram, sort = TRUE) %>%
head(10)
# 8. График топ-10 слов
words %>%
head(10) %>%
ggplot(aes(x = reorder(word, n), y = n)) +
geom_col(fill = "steelblue") +
coord_flip() +
labs(title = "Топ-10 слов в корпусе", x = "Слово", y = "Частота") +
theme_minimal() +
theme(plot.title = element_text(hjust = 0.5, face = "bold"))
Результаты
Статистика корпуса
| Показатель | Значение |
|---|---|
| Всего слов в корпусе | 102 |
| Слов в Sorting Things Out | 31 |
| Слов в On memory | 33 |
| Слов в Literacy and Education | 38 |
| Всего токенов | 102 |
| Уникальных слов (типов) | 89 |
| TTR | 0.8725 |
Топ-10 слов
| Слово | Частота |
|---|---|
| и | 3 |
| the | 3 |
| literacy | 3 |
| and | 3 |
| памяти | 2 |
| информацию | 2 |
| how | 2 |
| as | 2 |
| a | 2 |
| be | 1 |
Топ-10 биграмм
| Биграмма | Частота |
|---|---|
| as a | 2 |
| how literacy | 2 |
| a mental | 1 |
| a social | 1 |
| and cultural | 1 |
| and education | 1 |
| and wandered | 1 |
| be seen | 1 |
| but as | 1 |
| came to | 1 |
Визуализация

Выводы
Корпус состоит из трёх текстов общим объёмом 102 слова. TTR равен 0.8725 — это очень высокий показатель, означающий что почти все слова в корпусе уникальны и лексика разнообразна. Среди частотных слов лидируют служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса. Топ биграммы «as a» и «how literacy» указывают на академический стиль текстов.
