Токенизация

Материал из Поле цифровой дидактики


Описание Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). Токенизация — это процесс разбиения большого блока текста на более мелкие «кусочки» (токены). Чаще всего токеном считают отдельное слово, но можно разбивать и на предложения, и на сочетания слов (n-граммы). После токенизации мы получаем таблицу, в которой каждая строка соответствует ровно одному токену. Это позволяет легко считать, сколько раз встречается каждое слово, какие слова используют чаще всего и строить на этом основании разные статистики и визуализации.
Область знаний Информатика, Лингвистика
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия R


## Only text
texts_vec <- vapply(test_all, function(x) x$content, FUN.VALUE = character(1))

corp <- corpus(texts_vec)

# токенизация с базовой очисткой
toks <- tokens(
  corp,
  remove_punct   = TRUE,   # убрать пунктуацию
  remove_symbols = TRUE,
  remove_numbers = TRUE
)

# приводим к нижнему регистру
toks <- tokens_tolower(toks)

# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# стоп-слова (русский + английский, при необходимости)
sw_ru <- stopwords("ru")   # из пакета stopwords
sw_en <- stopwords("en")
toks <- tokens_remove(toks, c(sw_ru, sw_en))
# удалить совсем короткие токены (<=2 символа)
toks <- tokens_keep(toks, min_nchar = 3)


all_tokens <- unlist(toks)
voyant_text <- paste(all_tokens, collapse = " ")

outfile <- "digida_Histoty_for_voyant.txt"
writeLines(voyant_text, outfile, useBytes = TRUE)