Voyant Tools Егоров Виталий
Анализ кодификатора ЕГЭ по информатике: методы корпусной лингвистики
Введение
Настоящая страница представляет собой результат цифрового анализа текста «Кодификатор проверяемых требований к результатам освоения основной образовательной программы среднего общего образования и элементов содержания для проведения единого государственного экзамена по ИНФОРМАТИКЕ».
Данный документ является одним из ключевых в системе подготовки к ЕГЭ, так как он официально устанавливает перечень тем, понятий и умений, выносимых на экзамен.
Для анализа текстовых характеристик документа использовалась веб-платформа Voyant Tools — инструмент для корпусного анализа, позволяющий выявить частотность терминов, контексты употребления ключевых слов и общую статистику текста.
Анализируемый корпус
В качестве корпуса выступил полный текст указанного кодификатора. Общий объём текста составляет 5 808 слов, количество уникальных словоформ — 2 223.
Цели анализа
Основная цель — визуализировать ключевые понятия курса информатики и структуру требований к экзамену. В центре внимания находятся:
- Терминология: названия разделов информатики (например, *алгоритм, программа, данные, модель, система, информация, процесс*), типов данных, структур программирования.
- Характерные конструкции для официально-делового и учебного стилей:
* страдательные обороты; * отглагольные существительные; * именные сказуемые; * сложные предложения с перечислением требований.
Визуализация корпуса в Voyant Tools
Ниже представлены интерактивные виджеты. Каждый из них отображает определённый срез лингвистической информации об анализируемом тексте. Виджеты являются полнофункциональными: вы можете кликать на любые элементы для получения более детальной информации.
1. Облако слов (Cirrus)
Назначение: Визуализация наиболее частотных терминов. Размер слова пропорционален частоте его употребления. Крупные слова — ключевые понятия кодификатора.
2. График трендов (Trends)
Назначение: Показывает, как часто выбранные ключевые слова встречаются в разных частях документа. Позволяет увидеть, в каких разделах кодификатора (например, «Требования», «Элементы содержания») термины концентрируются.
3. Семантическая сеть (TermsBerry)
Назначение: Визуализация связей между ключевыми терминами. Толстые линии означают сильную связь (слова часто встречаются рядом). Например, можно увидеть, какие понятия образуют устойчивые пары («двоичная система», «алгоритмическая структура»).
4. Таблица терминов корпуса (CorpusTerms)
Назначение: Полный список всех слов с указанием абсолютной и относительной частоты. Позволяет узнать, какие термины встречаются чаще всего (например, «данные», «программа», «использовать», «уметь», «алгоритм»).
5. Сводная статистика корпуса (Summary)
Назначение: Предоставляет общую информацию: количество документов (1), общее число слов (5 808), уникальных слов (2 223), лексическую плотность (0.38 — довольно высокая, что характерно для терминологически насыщенного текста) и индекс удобочитаемости.
6. Ленточные диаграммы частотности (Bubblelines)
Назначение: Очень наглядный способ увидеть, как часто выбранные слова встречаются в разных частях документа. Размер «пузырька» пропорционален частоте. Полезно для сравнения, например, где чаще встречается слово «уметь», а где — «знать».
Выводы
Корпусный анализ кодификатора ЕГЭ по информатике позволил: 1. Выделить ядро терминосистемы: частотные слова («данные», «алгоритм», «программа», «процесс», «модель») отражают основные содержательные блоки экзамена. 2. Высокая лексическая плотность (0.38) подтверждает насыщенность документа специальной лексикой. 3. Облако слов и семантическая сеть наглядно показывают приоритетные разделы информатики с точки зрения составителей ЕГЭ.
Таким образом, инструменты цифрового анализа позволяют быстро и объективно выявить структуру и ключевые понятия больших официально-нормативных текстов.
