R-script Хадижа

Описание

На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:

R-скрипт

library(tidyverse)
library(tidytext)

# 1. Загрузка данных
data <- read_csv("corpus.csv")

# 2. Структура данных
glimpse(data)

# 3. Общее количество слов в корпусе
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  summarise(total = sum(word_count))

# 4. Слов по каждому тексту
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  select(title, author, year, word_count)

# 5. Топ-10 самых частых слов
data %>%
  unnest_tokens(word, text) %>%
  count(word, sort = TRUE) %>%
  head(10)

# 6. TTR (лексическое разнообразие)
words <- data %>%
  unnest_tokens(word, text) %>%
  count(word, sort = TRUE)

total_tokens <- sum(words$n)
total_types <- nrow(words)
ttr <- total_types / total_tokens

cat("Токенов:", total_tokens, "\n")
cat("Типов:", total_types, "\n")
cat("TTR:", round(ttr, 4), "\n")

# 7. Биграммы
data %>%
  unnest_tokens(bigram, text, token = "ngrams", n = 2) %>%
  count(bigram, sort = TRUE) %>%
  head(10)

# 8. График топ-10 слов
words %>%
  head(10) %>%
  ggplot(aes(x = reorder(word, n), y = n)) +
  geom_col(fill = "steelblue") +
  coord_flip() +
  labs(title = "Топ-10 слов в корпусе", x = "Слово", y = "Частота") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5, face = "bold"))

Результаты

Статистика корпуса

Показатель	Значение
Всего слов в корпусе	102
Слов в Sorting Things Out	31
Слов в On memory	33
Слов в Literacy and Education	38
Всего токенов	102
Уникальных слов (типов)	89
TTR	0.8725

Топ-10 слов

Слово	Частота
и	3
the	3
literacy	3
and	3
памяти	2
информацию	2
how	2
as	2
a	2
be	1

Топ-10 биграмм

Биграмма	Частота
as a	2
how literacy	2
a mental	1
a social	1
and cultural	1
and education	1
and wandered	1
be seen	1
but as	1
came to	1

Визуализация

Выводы

Корпус состоит из трёх текстов общим объёмом 102 слова. TTR равен 0.8725 — это очень высокий показатель, означающий что почти все слова в корпусе уникальны и лексика разнообразна. Среди частотных слов лидируют служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса. Топ биграммы «as a» и «how literacy» указывают на академический стиль текстов.

Аноним

Поиск

R-script Хадижа

Пространства имён

Ещё

Действия на странице

Содержание

Описание

R-скрипт

Результаты

Статистика корпуса

Топ-10 слов

Топ-10 биграмм

Визуализация

Выводы

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

R-script Хадижа

Описание

R-скрипт

Результаты

Статистика корпуса

Топ-10 слов

Топ-10 биграмм

Визуализация

Выводы

Навигация

Вики-инструменты

Инструменты для страниц

Категории