Type-Token Ratio

Материал из Поле цифровой дидактики


Описание Type-Token Ratio (TTR) — это простой и интуитивный количественный показатель лексического разнообразия текста, широко используемый в квантитативной лингвистике и прикладных корпусных исследованиях. В образовательных исследованиях TTR применяют для сравнения письменных работ студентов разных специальностей (например, филологов и историков), чтобы оценить богатство словаря и характер повторяемости лексики. Значение TTR лежит в интервале от 0 до 1: чем ближе показатель к 1, тем более разнообразной считается лексика текста. Однако TTR существенно зависит от длины текста: при увеличении объёма корпуса число токенов растёт быстрее, чем число новых типов, поэтому TTR для длинных текстов, как правило, ниже, чем для коротких.
Область знаний Лингвистика, Статистика
Авторы
Поясняющее видео
Близкие понятия Коэффициент Джини
Среды и средства для освоения понятия CODAP, R

В рамках анализа текста под token (токеном) обычно понимают отдельное слово в тексте после разбиения (токенизации), включая повторяющиеся вхождения. Под type (типом) понимается уникальная словоформа: каждое различное слово считается один раз независимо от числа повторов.

В школьном или вузовском сочинении на 300 слов общее число токенов будет \(N\) (число всех слов), а число типов \(V\) — количество разных слов, встречающихся хотя бы один раз; это даёт возможность количественно оценить лексическое разнообразие работы студента.

Классическое определение TTR записывается как отношение числа типов к числу токенов:

[math]\displaystyle{ \mathrm{TTR} = \frac{V}{N} }[/math]

где
  • [math]\displaystyle{ V }[/math] — количество уникальных слов (types);
  • [math]\displaystyle{ N }[/math] — общее количество слов (tokens) в тексте.

В ряде приложений TTR умножают на 100 и представляют в процентах: [math]\displaystyle{ \mathrm{TTR\%} = \frac{V}{N} \cdot 100 }[/math]

Например, если студент использовал 50 разных слов в сочинении объёмом 100 слов, то: [math]\displaystyle{ \mathrm{TTR} = \frac{50}{100} = 0{,}5,\quad \mathrm{TTR\%} = 50 }[/math]

Интерпретация TTR и связь с длиной текста

Значение TTR лежит в интервале от 0 до 1: чем ближе показатель к 1, тем более разнообразной считается лексика текста. Однако TTR существенно зависит от длины текста: при увеличении объёма корпуса число токенов растёт быстрее, чем число новых типов, поэтому TTR для длинных текстов, как правило, ниже, чем для коротких.

В образовательной статистике это важно: при сравнении письменных работ филологов и историков TTR следует интерпретировать только в сопоставлении текстов близкого объёма (например, одинаковое количество слов или использование усечённых фрагментов фиксированной длины). Для устранения влияния длины текста существуют модификации TTR (например, анализ по сегментам фиксированной длины), однако базовый TTR остаётся удобным наглядным показателем для учебных задач.

В экономике и социо‑экономической статистике коэффициент Джини используется как мера неравенства распределения доходов; значение около 0 означает равномерное распределение, а близкое к 1 — сильную концентрацию ресурса у небольшой группы. Аналогично, в лингвистике коэффициент Джини может применяться к распределению частот слов: чем ближе он к 1, тем сильнее небольшое число слов доминирует по частоте над остальными, а значит, текст более «однообразен». TTR и коэффициент Джини описывают разные, но взаимосвязанные аспекты лексического разнообразия: TTR фиксирует долю уникальных слов, тогда как Джини характеризует неравномерность их частотного распределения. В сравнительном анализе текстов студентов (например, историков и филологов) можно использовать TTR для общей оценки богатства словаря и коэффициент Джини для оценки степени концентрации лексики вокруг наиболее частых терминов; это позволяет проводить более тонкий статистический анализ профессиональных «диалектов» учебных текстов.