TF-IDF

Материал из Поле цифровой дидактики


Описание TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.
Область знаний Лингвистика
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия Semantic MediaWiki, R

TF (term frequency — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа. Таким образом, оценивается важность слова [math]\displaystyle{ t_{i} }[/math] в пределах отдельного документа.

[math]\displaystyle{ \mathrm{tf}(t,d) = \frac{n_t}{\sum_k n_k} }[/math] ,

где [math]\displaystyle{ n_t }[/math] есть число вхождений слова [math]\displaystyle{ t }[/math] в документ, а в знаменателе — общее число слов в данном документе.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции.

Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

[math]\displaystyle{ \mathrm{idf}(t, D) = \log \frac{|D|}{|\{\,d_i \in D \mid t \in d_{i}\, \}|} }[/math] ,В некоторых вариантах формулы не используется логарифмирование.</ref>

где

  • |D| — число документов в коллекции;
  • [math]\displaystyle{ |\{\,d_i \in D \mid t \in d_{i}\, \}| }[/math] — число документов из коллекции [math]\displaystyle{ D }[/math], в которых встречается [math]\displaystyle{ t }[/math] (когда [math]\displaystyle{ n_{t} \neq 0 }[/math]).

Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.

Таким образом, мера TF-IDF является произведением двух сомножителей:

[math]\displaystyle{ \operatorname{tf-idf}(t,d,D) = \operatorname{tf}(t,d) \times \operatorname{idf}(t, D) }[/math]

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.