У вас нет прав на выполнение действия «редактирование этой страницы» по следующей причине:
Текст:
'''TF''' (''term frequency'' — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа. Таким образом, оценивается важность слова <math> t_{i} </math> в пределах отдельного документа. : <math> \mathrm{tf}(t,d) = \frac{n_t}{\sum_k n_k}</math> , где <math>n_t</math> есть число вхождений слова <math>t</math> в документ, а в знаменателе — общее число слов в данном документе. '''IDF''' (''inverse document frequency'' — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF. : <math> \mathrm{idf}(t, D) = \log \frac{|D|}{|\{\,d_i \in D \mid t \in d_{i}\, \}|}</math> ,В некоторых вариантах формулы не используется логарифмирование.</ref> где * |D| — число документов в коллекции; * <math>|\{\,d_i \in D \mid t \in d_{i}\, \}|</math> — число документов из коллекции <math>D</math>, в которых встречается <math> t </math> (когда <math> n_{t} \neq 0</math>). Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов. Таким образом, мера TF-IDF является произведением двух сомножителей: : <math>\operatorname{tf-idf}(t,d,D) = \operatorname{tf}(t,d) \times \operatorname{idf}(t, D)</math> Большой вес в TF-IDF получат слова с высокой [[частота (статистика)|частотой]] в пределах конкретного документа и с низкой частотой употреблений в других документах.
Записать страницу Отменить