Токенизация
Материал из Поле цифровой дидактики
| Описание | Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). Токенизация — это процесс разбиения большого блока текста на более мелкие «кусочки» (токены). Чаще всего токеном считают отдельное слово, но можно разбивать и на предложения, и на сочетания слов (n-граммы). После токенизации мы получаем таблицу, в которой каждая строка соответствует ровно одному токену. Это позволяет легко считать, сколько раз встречается каждое слово, какие слова используют чаще всего и строить на этом основании разные статистики и визуализации. |
|---|---|
| Область знаний | Информатика, Лингвистика |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия | R |
## Only text
texts_vec <- vapply(test_all, function(x) x$content, FUN.VALUE = character(1))
corp <- corpus(texts_vec)
# токенизация с базовой очисткой
toks <- tokens(
corp,
remove_punct = TRUE, # убрать пунктуацию
remove_symbols = TRUE,
remove_numbers = TRUE
)
# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# стоп-слова (русский + английский, при необходимости)
sw_ru <- stopwords("ru") # из пакета stopwords
sw_en <- stopwords("en")
toks <- tokens_remove(toks, c(sw_ru, sw_en))
# удалить совсем короткие токены (<=2 символа)
toks <- tokens_keep(toks, min_nchar = 3)
all_tokens <- unlist(toks)
voyant_text <- paste(all_tokens, collapse = " ")
outfile <- "digida_Histoty_for_voyant.txt"
writeLines(voyant_text, outfile, useBytes = TRUE)
