Терм-документная матрица
Материал из Поле цифровой дидактики
| Описание | Терм-документная матрица представляет собой математическую матрицу, описывающую частоту терминов, которые встречаются в коллекции документов. В терм-документной матрице строки соответствуют документам в коллекции, а столбцы соответствуют терминам. Существуют различные схемы для определения значения каждого элемента матрицы. Одной из таких является схема TF-IDF. |
|---|---|
| Область знаний | |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | TF-IDF |
| Среды и средства для освоения понятия | R |
При создании базы данных терминов, используемых в наборе документов, матрица терминов формируется как матрица инцидентности, строки которой соответствуют документам, а элементы строк - наличию соответствующих терминов в этих документах. Например, если есть два коротких документа:
- D1 = "Мне нравятся данные"
- D2 = "Мне не нравятся данные",
то соответствующая матрица терминов будет иметь вид:
| Мне | нравятся | не нравятся | данные | |
|---|---|---|---|---|
| D1 | 1 | 1 | 0 | 1 |
| D2 | 1 | 0 | 1 | 1 |
который показывает, какие термины содержатся в тех или иных документах, и сколько раз они встречаются.
