R-script Хадижа

Описание корпуса

На этой странице представлен R-скрипт анализа трёх текстов с платформы digida.mgpu.ru:

R-скрипт

library(tidyverse)
library(tidytext)

# 1. Загрузка данных
data <- read_csv("corpus.csv")

# 2. Структура данных
glimpse(data)

# 3. Общее количество слов в корпусе
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  summarise(total = sum(word_count))

# 4. Слов по каждому тексту
data %>%
  mutate(word_count = str_count(text, "\\S+")) %>%
  select(title, author, year, word_count)

# 5. Топ-10 самых частых слов
data %>%
  unnest_tokens(word, text) %>%
  count(word, sort = TRUE) %>%
  head(10)

Результаты

Показатель	Значение
Всего слов в корпусе	102
Слов в Sorting Things Out	31
Слов в On memory	33
Слов в Literacy and Education	38

Топ-10 самых частых слов:

Слово	Частота
and	3
literacy	3
the	3
и	3
a	2
as	2
how	2
информацию	2
памяти	2
be	1

Выводы

Корпус состоит из трёх текстов, общий объём — 102 слова. Наиболее частотные слова — служебные (and, the, и), что типично для смешанного русско-английского корпуса. Среди содержательных слов выделяются «literacy», «информацию» и «памяти» — они отражают общую тематику корпуса.

Аноним

Поиск

R-script Хадижа

Пространства имён

Ещё

Действия на странице

Содержание

Описание корпуса

R-скрипт

Результаты

Выводы

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

R-script Хадижа

Описание корпуса

R-скрипт

Результаты

Выводы

Навигация

Вики-инструменты

Инструменты для страниц

Категории