Как сравнить тексты: различия между версиями

Версия от 17:03, 10 декабря 2025

Описание	Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примерестудентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
Область знаний	Лингвистика, Литература, Статистика
Область использования (ISTE)
Возрастная категория	16
Поясняющее видео
Близкие рецепту понятия	Статистика
Среды и средства для приготовления рецепта:	R, VOYANT Tools

Введение

Корпус текстов студентов историков (45 статей из категории "Работы историков ИГН") и студентов филологов (49 статей из категории "Работы филологов ИГН") отражает различные подходы к работе с текстом, обусловленные спецификой дисциплин. Сравнительный анализ этих корпусов позволит выявить различия в стиле письма, лексико-семантических предпочтениях, структурировании информации и когнитивных стратегиях.

Теоретические основания

Сравнительный анализ основан на следующих принципах:

Corpus linguistics — анализ больших текстовых совокупностей с использованием компьютерных методов
Distant reading (Моретти) — макроскопический анализ корпуса как альтернатива микроанализу
Stylometry — количественное изучение авторского стиля через лингвистические параметры
Academic discourse analysis — выявление особенностей научного стиля различных дисциплин

Подготовка данных и сбор текстов

	Description
Как извлечь данные из категории Digida	Мы хотим проанализировать тексты, которые хранятся в статья определенной категории поля цифровой дидактики. Есть 2 способа - экспорт статей и использование MediaWiki API

Поверхностный анализ текста

	Description
Как провести поверхностный анализ текста	Поверхностный анализ текста — это анализ легко измеримых, формальных характеристик текста, которые не требуют глубокого лингвистического анализа или интерпретации смысла. К ним относятся: Количество слов, символов, предложений Средняя длина слова и предложения Плотность текста Главное преимущество поверхностного анализа: быстрота, объективность, воспроизводимость результатов.

Результат интерпретации

средний объём статей между историками и филологами
синтаксическую сложность (длину предложений)
различия в средней длине слова (терминологичность текстов)

Voyant Tools:

Summary — общая статистика (Total Words, Unique Words, Average Word Length, Average Words per Sentence)
Trends — сравнение распределения ключевых слов между историками и филологами

@@ Строка 32: / Строка 32: @@
 # синтаксическую сложность (длину предложений)
 # различия в средней длине слова (терминологичность текстов)
+[[Voyant Tools]]:
+*  '''Summary''' — общая статистика (Total Words, Unique Words, Average Word Length, Average Words per Sentence)
+*  '''Trends''' — сравнение распределения ключевых слов между историками и филологами

Аноним

Поиск

Как сравнить тексты: различия между версиями

Пространства имён

Ещё

Действия на странице

Версия от 17:03, 10 декабря 2025

Содержание

Введение

Теоретические основания

Подготовка данных и сбор текстов

Поверхностный анализ текста

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Как сравнить тексты: различия между версиями

Версия от 17:03, 10 декабря 2025

Введение

Теоретические основания

Подготовка данных и сбор текстов

Поверхностный анализ текста

Навигация

Вики-инструменты

Инструменты для страниц

Категории