TF-IDF
| Описание | TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации. |
|---|---|
| Область знаний | Лингвистика |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия | Semantic MediaWiki, R |
TF (term frequency — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа. Таким образом, оценивается важность слова [math]\displaystyle{ t_{i} }[/math] в пределах отдельного документа.
- [math]\displaystyle{ \mathrm{tf}(t,d) = \frac{n_t}{\sum_k n_k} }[/math] ,
где [math]\displaystyle{ n_t }[/math] есть число вхождений слова [math]\displaystyle{ t }[/math] в документ, а в знаменателе — общее число слов в данном документе.
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции.
Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.
- [math]\displaystyle{ \mathrm{idf}(t, D) = \log \frac{|D|}{|\{\,d_i \in D \mid t \in d_{i}\, \}|} }[/math] ,В некоторых вариантах формулы не используется логарифмирование.</ref>
где
- |D| — число документов в коллекции;
- [math]\displaystyle{ |\{\,d_i \in D \mid t \in d_{i}\, \}| }[/math] — число документов из коллекции [math]\displaystyle{ D }[/math], в которых встречается [math]\displaystyle{ t }[/math] (когда [math]\displaystyle{ n_{t} \neq 0 }[/math]).
Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.
Таким образом, мера TF-IDF является произведением двух сомножителей:
- [math]\displaystyle{ \operatorname{tf-idf}(t,d,D) = \operatorname{tf}(t,d) \times \operatorname{idf}(t, D) }[/math]
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.
