Токенизация: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «{{Понятие |Description=Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). |Field_of_knowledge=Информатика, Лингвистика |Environment=R }}»
 
Нет описания правки
 
Строка 1: Строка 1:
{{Понятие
{{Понятие
|Description=Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.).
|Description=Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). Токенизация — это процесс разбиения большого блока текста на более мелкие «кусочки» (токены). Чаще всего токеном считают отдельное слово, но можно разбивать и на предложения, и на сочетания слов (n-граммы). После токенизации мы получаем таблицу, в которой каждая строка соответствует ровно одному токену. Это позволяет легко считать, сколько раз встречается каждое слово, какие слова используют чаще всего и строить на этом основании разные статистики и визуализации.
|Field_of_knowledge=Информатика, Лингвистика
|Field_of_knowledge=Информатика, Лингвистика
|Environment=R
|Environment=R
}}
}}
<syntaxhighlight lang="R" line>
## Only text
texts_vec <- vapply(test_all, function(x) x$content, FUN.VALUE = character(1))
corp <- corpus(texts_vec)
# токенизация с базовой очисткой
toks <- tokens(
  corp,
  remove_punct  = TRUE,  # убрать пунктуацию
  remove_symbols = TRUE,
  remove_numbers = TRUE
)
# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# стоп-слова (русский + английский, при необходимости)
sw_ru <- stopwords("ru")  # из пакета stopwords
sw_en <- stopwords("en")
toks <- tokens_remove(toks, c(sw_ru, sw_en))
# удалить совсем короткие токены (<=2 символа)
toks <- tokens_keep(toks, min_nchar = 3)
all_tokens <- unlist(toks)
voyant_text <- paste(all_tokens, collapse = " ")
outfile <- "digida_Histoty_for_voyant.txt"
writeLines(voyant_text, outfile, useBytes = TRUE)
</syntaxhighlight>

Текущая версия от 20:07, 8 декабря 2025


Описание Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). Токенизация — это процесс разбиения большого блока текста на более мелкие «кусочки» (токены). Чаще всего токеном считают отдельное слово, но можно разбивать и на предложения, и на сочетания слов (n-граммы). После токенизации мы получаем таблицу, в которой каждая строка соответствует ровно одному токену. Это позволяет легко считать, сколько раз встречается каждое слово, какие слова используют чаще всего и строить на этом основании разные статистики и визуализации.
Область знаний Информатика, Лингвистика
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия R


## Only text
texts_vec <- vapply(test_all, function(x) x$content, FUN.VALUE = character(1))

corp <- corpus(texts_vec)

# токенизация с базовой очисткой
toks <- tokens(
  corp,
  remove_punct   = TRUE,   # убрать пунктуацию
  remove_symbols = TRUE,
  remove_numbers = TRUE
)

# приводим к нижнему регистру
toks <- tokens_tolower(toks)

# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# стоп-слова (русский + английский, при необходимости)
sw_ru <- stopwords("ru")   # из пакета stopwords
sw_en <- stopwords("en")
toks <- tokens_remove(toks, c(sw_ru, sw_en))
# удалить совсем короткие токены (<=2 символа)
toks <- tokens_keep(toks, min_nchar = 3)


all_tokens <- unlist(toks)
voyant_text <- paste(all_tokens, collapse = " ")

outfile <- "digida_Histoty_for_voyant.txt"
writeLines(voyant_text, outfile, useBytes = TRUE)