Type-Token Ratio
| Описание | Type-Token Ratio (TTR) — это простой и интуитивный количественный показатель лексического разнообразия текста, широко используемый в квантитативной лингвистике и прикладных корпусных исследованиях. В образовательных исследованиях TTR применяют для сравнения письменных работ студентов разных специальностей (например, филологов и историков), чтобы оценить богатство словаря и характер повторяемости лексики. |
|---|---|
| Область знаний | Лингвистика, Статистика |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | Коэффициент Джини |
| Среды и средства для освоения понятия | CODAP, R |
В рамках анализа текста под token (токеном) обычно понимают отдельное слово в тексте после разбиения (токенизации), включая повторяющиеся вхождения. Под type (типом) понимается уникальная словоформа: каждое различное слово считается один раз независимо от числа повторов.
В школьном или вузовском сочинении на 300 слов общее число токенов будет \(N\) (число всех слов), а число типов \(V\) — количество разных слов, встречающихся хотя бы один раз; это даёт возможность количественно оценить лексическое разнообразие работы студента.
Классическое определение TTR записывается как отношение числа типов к числу токенов:
[math]\displaystyle{ \mathrm{TTR} = \frac{V}{N} }[/math]
- где
- [math]\displaystyle{ V }[/math] — количество уникальных слов (types);
- [math]\displaystyle{ N }[/math] — общее количество слов (tokens) в тексте.
В ряде приложений TTR умножают на 100 и представляют в процентах: [math]\displaystyle{ \mathrm{TTR\%} = \frac{V}{N} \cdot 100 }[/math]
Например, если студент использовал 50 разных слов в сочинении объёмом 100 слов, то: [math]\displaystyle{ \mathrm{TTR} = \frac{50}{100} = 0{,}5,\quad \mathrm{TTR\%} = 50 }[/math]
