Метрика TF-IDF

Материал из Поле цифровой дидактики
Версия от 21:41, 22 января 2026; Демина Виктория (обсуждение | вклад) (Новая страница: «{{Понятие |Description=Суть: TF-IDF (Term Frequency – Inverse Document Frequency) — статистическая мера, оценивающая важность слова в конкретном документе относительно всей коллекции документов (корпуса). Высокий вес получают слова, которые часто встречаются в данном документе, н...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)


Описание Суть: TF-IDF (Term Frequency – Inverse Document Frequency) — статистическая мера, оценивающая важность слова в конкретном документе относительно всей коллекции документов (корпуса). Высокий вес получают слова, которые часто встречаются в данном документе, но редко — в других документах коллекции.

· Формула и компоненты:

 · TF (Term Frequency, частота термина): Показывает, как часто слово встречается в документе. Чаще всего рассчитывается как отношение числа вхождений слова к общему числу слов в документе.
 · IDF (Inverse Document Frequency, обратная частота документа): Показывает, насколько слово редко или часто встречается во всех документах коллекции. IDF высок для редких слов и низок (стремится к нулю) для общеупотребительных (например, предлогов). Формула: IDF(t) = log( N / n(t) ), где N — общее число документов, а n(t) — число документов, содержащих слово t.
 · TF-IDF: Произведение двух компонентов: TF-IDF(t, d, D) = TF(t, d) * IDF(t, D).

· Что помогает оценивать (применение):

 · Поиск и релевантность: Ранжирование документов по поисковому запросу (например, в поисковых системах).
 · Извлечение ключевых слов: Автоматическое выделение наиболее значимых терминов, характеризующих документ.
 · Кластеризация и классификация текстов: Группировка схожих документов (например, по темам) и отнесение текстов к категориям (спам/не спам, тематика).
 · Анализ сходства документов: Сравнение текстов через векторизацию (например, с помощью косинусного сходства).

· Преимущества и ограничения:

 · Плюсы: Простота, интуитивная понятность, эффективное выделение тематически значимых слов.
 · Минусы: Не учитывает семантику (значение) слов и их порядок в предложении. Может быть чувствителен к длине документа.
Область знаний
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия