Type-Token Ratio

Материал из Поле цифровой дидактики
Версия от 14:26, 15 декабря 2025; Patarakin (обсуждение | вклад) (Новая страница: «{{Понятие |Description=Type-Token Ratio (TTR) — это простой и интуитивный количественный показатель лексического разнообразия текста, широко используемый в квантитативной лингвистике и прикладных корпусных исследованиях. В образовательных исследованиях TTR применя...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)


Описание Type-Token Ratio (TTR) — это простой и интуитивный количественный показатель лексического разнообразия текста, широко используемый в квантитативной лингвистике и прикладных корпусных исследованиях. В образовательных исследованиях TTR применяют для сравнения письменных работ студентов разных специальностей (например, филологов и историков), чтобы оценить богатство словаря и характер повторяемости лексики.
Область знаний Лингвистика, Статистика
Авторы
Поясняющее видео
Близкие понятия Коэффициент Джини
Среды и средства для освоения понятия CODAP, R

В рамках анализа текста под token (токеном) обычно понимают отдельное слово в тексте после разбиения (токенизации), включая повторяющиеся вхождения. Под type (типом) понимается уникальная словоформа: каждое различное слово считается один раз независимо от числа повторов.

В школьном или вузовском сочинении на 300 слов общее число токенов будет \(N\) (число всех слов), а число типов \(V\) — количество разных слов, встречающихся хотя бы один раз; это даёт возможность количественно оценить лексическое разнообразие работы студента.

Классическое определение TTR записывается как отношение числа типов к числу токенов:

[math]\displaystyle{ \mathrm{TTR} = \frac{V}{N} }[/math]

где
  • [math]\displaystyle{ V }[/math] — количество уникальных слов (types);
  • [math]\displaystyle{ N }[/math] — общее количество слов (tokens) в тексте.

В ряде приложений TTR умножают на 100 и представляют в процентах: [math]\displaystyle{ \mathrm{TTR\%} = \frac{V}{N} \cdot 100 }[/math]

Например, если студент использовал 50 разных слов в сочинении объёмом 100 слов, то: [math]\displaystyle{ \mathrm{TTR} = \frac{50}{100} = 0{,}5,\quad \mathrm{TTR\%} = 50 }[/math]