Метрика TF-IDF
Материал из Поле цифровой дидактики
| Описание | Суть: TF-IDF (Term Frequency – Inverse Document Frequency) — статистическая мера, оценивающая важность слова в конкретном документе относительно всей коллекции документов (корпуса). Высокий вес получают слова, которые часто встречаются в данном документе, но редко — в других документах коллекции.
· Формула и компоненты: · TF (Term Frequency, частота термина): Показывает, как часто слово встречается в документе. Чаще всего рассчитывается как отношение числа вхождений слова к общему числу слов в документе. · IDF (Inverse Document Frequency, обратная частота документа): Показывает, насколько слово редко или часто встречается во всех документах коллекции. IDF высок для редких слов и низок (стремится к нулю) для общеупотребительных (например, предлогов). Формула: IDF(t) = log( N / n(t) ), где N — общее число документов, а n(t) — число документов, содержащих слово t. · TF-IDF: Произведение двух компонентов: TF-IDF(t, d, D) = TF(t, d) * IDF(t, D). · Что помогает оценивать (применение): · Поиск и релевантность: Ранжирование документов по поисковому запросу (например, в поисковых системах). · Извлечение ключевых слов: Автоматическое выделение наиболее значимых терминов, характеризующих документ. · Кластеризация и классификация текстов: Группировка схожих документов (например, по темам) и отнесение текстов к категориям (спам/не спам, тематика). · Анализ сходства документов: Сравнение текстов через векторизацию (например, с помощью косинусного сходства). · Преимущества и ограничения: · Плюсы: Простота, интуитивная понятность, эффективное выделение тематически значимых слов. · Минусы: Не учитывает семантику (значение) слов и их порядок в предложении. Может быть чувствителен к длине документа. |
|---|---|
| Область знаний | |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия |
