Терм-документная матрица: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «{{Понятие |Description=Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответ...»
 
Нет описания правки
 
Строка 1: Строка 1:
{{Понятие
{{Понятие
|Description=Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF.
|Description=Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF.
|similar_concepts=NetLogo
|similar_concepts=TF-IDF
|Environment=R
|Environment=R
}}
}}

Текущая версия от 16:13, 18 августа 2025


Описание Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF.
Область знаний
Авторы
Поясняющее видео
Близкие понятия TF-IDF
Среды и средства для освоения понятия R

При создании базы данных терминов, используемых в наборе документов, матрица терминов формируется как матрица инцидентности, строки которой соответствуют документам, а элементы строк - наличию соответствующих терминов в этих документах. Например, если есть два коротких документа:

  • D1 = "Мне нравятся данные"
  • D2 = "Мне не нравятся данные",

то соответствующая матрица терминов будет иметь вид:

Мне нравятся не нравятся данные
D1 1 1 0 1
D2 1 0 1 1

который показывает, какие термины содержатся в тех или иных документах, и сколько раз они встречаются.