R-script Хадижа: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «== Описание корпуса == На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru: * Sorting Things Out * On memory * Literacy and Education == R-скрипт == <syntaxhighlight lang="R" line> library(tidyverse) library(tidytext) # 1. Загрузка данных data <- read_csv("corpus.csv") # 2. Структура данных glimpse(d...»
 
Нет описания правки
 
Строка 1: Строка 1:
== Описание корпуса ==
== Описание ==


На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:
На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:
Строка 34: Строка 34:
   count(word, sort = TRUE) %>%
   count(word, sort = TRUE) %>%
   head(10)
   head(10)
# 6. TTR (лексическое разнообразие)
words <- data %>%
  unnest_tokens(word, text) %>%
  count(word, sort = TRUE)
total_tokens <- sum(words$n)
total_types <- nrow(words)
ttr <- total_types / total_tokens
cat("Токенов:", total_tokens, "\n")
cat("Типов:", total_types, "\n")
cat("TTR:", round(ttr, 4), "\n")
# 7. Биграммы
data %>%
  unnest_tokens(bigram, text, token = "ngrams", n = 2) %>%
  count(bigram, sort = TRUE) %>%
  head(10)
# 8. График топ-10 слов
words %>%
  head(10) %>%
  ggplot(aes(x = reorder(word, n), y = n)) +
  geom_col(fill = "steelblue") +
  coord_flip() +
  labs(title = "Топ-10 слов в корпусе", x = "Слово", y = "Частота") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5, face = "bold"))
</syntaxhighlight>
</syntaxhighlight>


== Результаты ==
== Результаты ==
=== Статистика корпуса ===


{| class="wikitable"
{| class="wikitable"
Строка 48: Строка 79:
|-
|-
| Слов в ''Literacy and Education'' || 38
| Слов в ''Literacy and Education'' || 38
|-
| Всего токенов || 102
|-
| Уникальных слов (типов) || 89
|-
| TTR || 0.8725
|}
|}


'''Топ-10 самых частых слов:'''
=== Топ-10 слов ===


{| class="wikitable"
{| class="wikitable"
! Слово !! Частота
! Слово !! Частота
|-
| и || 3
|-
| the || 3
|-
| literacy || 3
|-
|-
| and || 3
| and || 3
|-
|-
| literacy || 3
| памяти || 2
|-
| информацию || 2
|-
|-
| the || 3
| how || 2
|-
|-
| и || 3
| as || 2
|-
|-
| a || 2
| a || 2
|-
|-
| as || 2
| be || 1
|}
 
=== Топ-10 биграмм ===
 
{| class="wikitable"
! Биграмма !! Частота
|-
| as a || 2
|-
| how literacy || 2
|-
| a mental || 1
|-
| a social || 1
|-
| and cultural || 1
|-
| and education || 1
|-
|-
| how || 2
| and wandered || 1
|-
|-
| информацию || 2
| be seen || 1
|-
|-
| памяти || 2
| but as || 1
|-
|-
| be || 1
| came to || 1
|}
|}
=== Визуализация ===
[[Файл:Rplot.png|600px|center|frameless|Топ-10 слов в корпусе]]


== Выводы ==
== Выводы ==


Корпус состоит из трёх текстов, общий объём — 102 слова. Наиболее частотные слова служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса.
Корпус состоит из трёх текстов общим объёмом 102 слова. TTR равен 0.8725 — это очень высокий показатель, означающий что почти все слова в корпусе уникальны и лексика разнообразна. Среди частотных слов лидируют служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса. Топ биграммы «as a» и «how literacy» указывают на академический стиль текстов.


[[Категория:CompLing Works]]
[[Категория:CompLing Works]]

Текущая версия от 13:48, 13 июня 2026

Описание

На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:

R-скрипт

library(tidyverse)
library(tidytext)

# 1. Загрузка данных
data <- read_csv("corpus.csv")

# 2. Структура данных
glimpse(data)

# 3. Общее количество слов в корпусе
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  summarise(total = sum(word_count))

# 4. Слов по каждому тексту
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  select(title, author, year, word_count)

# 5. Топ-10 самых частых слов
data %>%
  unnest_tokens(word, text) %>%
  count(word, sort = TRUE) %>%
  head(10)

# 6. TTR (лексическое разнообразие)
words <- data %>%
  unnest_tokens(word, text) %>%
  count(word, sort = TRUE)

total_tokens <- sum(words$n)
total_types <- nrow(words)
ttr <- total_types / total_tokens

cat("Токенов:", total_tokens, "\n")
cat("Типов:", total_types, "\n")
cat("TTR:", round(ttr, 4), "\n")

# 7. Биграммы
data %>%
  unnest_tokens(bigram, text, token = "ngrams", n = 2) %>%
  count(bigram, sort = TRUE) %>%
  head(10)

# 8. График топ-10 слов
words %>%
  head(10) %>%
  ggplot(aes(x = reorder(word, n), y = n)) +
  geom_col(fill = "steelblue") +
  coord_flip() +
  labs(title = "Топ-10 слов в корпусе", x = "Слово", y = "Частота") +
  theme_minimal() +
  theme(plot.title = element_text(hjust = 0.5, face = "bold"))

Результаты

Статистика корпуса

Показатель Значение
Всего слов в корпусе 102
Слов в Sorting Things Out 31
Слов в On memory 33
Слов в Literacy and Education 38
Всего токенов 102
Уникальных слов (типов) 89
TTR 0.8725

Топ-10 слов

Слово Частота
и 3
the 3
literacy 3
and 3
памяти 2
информацию 2
how 2
as 2
a 2
be 1

Топ-10 биграмм

Биграмма Частота
as a 2
how literacy 2
a mental 1
a social 1
and cultural 1
and education 1
and wandered 1
be seen 1
but as 1
came to 1

Визуализация

Топ-10 слов в корпусе
Топ-10 слов в корпусе

Выводы

Корпус состоит из трёх текстов общим объёмом 102 слова. TTR равен 0.8725 — это очень высокий показатель, означающий что почти все слова в корпусе уникальны и лексика разнообразна. Среди частотных слов лидируют служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса. Топ биграммы «as a» и «how literacy» указывают на академический стиль текстов.