Токенизация: различия между версиями
Материал из Поле цифровой дидактики
Patarakin (обсуждение | вклад) Новая страница: «{{Понятие |Description=Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). |Field_of_knowledge=Информатика, Лингвистика |Environment=R }}» |
Patarakin (обсуждение | вклад) Нет описания правки |
||
| Строка 1: | Строка 1: | ||
{{Понятие | {{Понятие | ||
|Description=Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). | |Description=Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). Токенизация — это процесс разбиения большого блока текста на более мелкие «кусочки» (токены). Чаще всего токеном считают отдельное слово, но можно разбивать и на предложения, и на сочетания слов (n-граммы). После токенизации мы получаем таблицу, в которой каждая строка соответствует ровно одному токену. Это позволяет легко считать, сколько раз встречается каждое слово, какие слова используют чаще всего и строить на этом основании разные статистики и визуализации. | ||
|Field_of_knowledge=Информатика, Лингвистика | |Field_of_knowledge=Информатика, Лингвистика | ||
|Environment=R | |Environment=R | ||
}} | }} | ||
<syntaxhighlight lang="R" line> | |||
## Only text | |||
texts_vec <- vapply(test_all, function(x) x$content, FUN.VALUE = character(1)) | |||
corp <- corpus(texts_vec) | |||
# токенизация с базовой очисткой | |||
toks <- tokens( | |||
corp, | |||
remove_punct = TRUE, # убрать пунктуацию | |||
remove_symbols = TRUE, | |||
remove_numbers = TRUE | |||
) | |||
# приводим к нижнему регистру | |||
toks <- tokens_tolower(toks) | |||
# приводим к нижнему регистру | |||
toks <- tokens_tolower(toks) | |||
# стоп-слова (русский + английский, при необходимости) | |||
sw_ru <- stopwords("ru") # из пакета stopwords | |||
sw_en <- stopwords("en") | |||
toks <- tokens_remove(toks, c(sw_ru, sw_en)) | |||
# удалить совсем короткие токены (<=2 символа) | |||
toks <- tokens_keep(toks, min_nchar = 3) | |||
all_tokens <- unlist(toks) | |||
voyant_text <- paste(all_tokens, collapse = " ") | |||
outfile <- "digida_Histoty_for_voyant.txt" | |||
writeLines(voyant_text, outfile, useBytes = TRUE) | |||
</syntaxhighlight> | |||
Текущая версия от 20:07, 8 декабря 2025
| Описание | Разделение текста на минимальные смысловые единицы — токены (слова, предложения, символы и пр.). Токенизация — это процесс разбиения большого блока текста на более мелкие «кусочки» (токены). Чаще всего токеном считают отдельное слово, но можно разбивать и на предложения, и на сочетания слов (n-граммы). После токенизации мы получаем таблицу, в которой каждая строка соответствует ровно одному токену. Это позволяет легко считать, сколько раз встречается каждое слово, какие слова используют чаще всего и строить на этом основании разные статистики и визуализации. |
|---|---|
| Область знаний | Информатика, Лингвистика |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия | R |
## Only text
texts_vec <- vapply(test_all, function(x) x$content, FUN.VALUE = character(1))
corp <- corpus(texts_vec)
# токенизация с базовой очисткой
toks <- tokens(
corp,
remove_punct = TRUE, # убрать пунктуацию
remove_symbols = TRUE,
remove_numbers = TRUE
)
# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# приводим к нижнему регистру
toks <- tokens_tolower(toks)
# стоп-слова (русский + английский, при необходимости)
sw_ru <- stopwords("ru") # из пакета stopwords
sw_en <- stopwords("en")
toks <- tokens_remove(toks, c(sw_ru, sw_en))
# удалить совсем короткие токены (<=2 символа)
toks <- tokens_keep(toks, min_nchar = 3)
all_tokens <- unlist(toks)
voyant_text <- paste(all_tokens, collapse = " ")
outfile <- "digida_Histoty_for_voyant.txt"
writeLines(voyant_text, outfile, useBytes = TRUE)
