Как сравнить тексты: различия между версиями

Текущая версия от 16:02, 15 декабря 2025

Описание	Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примере студентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
Область знаний	Лингвистика, Литература, Статистика
Область использования (ISTE)
Возрастная категория	16
Поясняющее видео
Близкие рецепту понятия	Статистика
Среды и средства для приготовления рецепта:	R, VOYANT Tools, StatKey

Введение

Корпус текстов студентов историков (45 статей из категории "Работы историков ИГН") и студентов филологов (49 статей из категории "Работы филологов ИГН") отражает различные подходы к работе с текстом, обусловленные спецификой дисциплин. Сравнительный анализ этих корпусов позволит выявить различия в стиле письма, лексико-семантических предпочтениях, структурировании информации и когнитивных стратегиях.

Теоретические основания

Сравнительный анализ основан на следующих принципах:

Corpus linguistics — анализ больших текстовых совокупностей с использованием компьютерных методов
Distant reading (Моретти) — макроскопический анализ корпуса как альтернатива микроанализу
Stylometry — количественное изучение авторского стиля через лингвистические параметры
Academic discourse analysis — выявление особенностей научного стиля различных дисциплин

Подготовка данных и сбор текстов

	Description
Как извлечь данные из категории Digida	Мы хотим проанализировать тексты, которые хранятся в статья определенной категории поля цифровой дидактики. Есть 2 способа - экспорт статей и использование MediaWiki API

Поверхностный анализ текста

	Description
Как провести поверхностный анализ текста	Поверхностный анализ текста — это анализ легко измеримых, формальных характеристик текста, которые не требуют глубокого лингвистического анализа или интерпретации смысла. К ним относятся: Количество слов, символов, предложений Средняя длина слова и предложения Плотность текста Главное преимущество поверхностного анализа: быстрота, объективность, воспроизводимость результатов.

Результат интерпретации

средний объём статей между историками и филологами
синтаксическую сложность (длину предложений)
различия в средней длине слова (терминологичность текстов)

Voyant Tools:

Summary — общая статистика (Total Words, Unique Words, Average Word Length, Average Words per Sentence)
Trends — сравнение распределения ключевых слов между историками и филологами

Лингвистический анализ текста

Как провести лингвистический анализ текста

Семантический анализ текста

Как провести семантический анализ текста

	Description
Как провести семантический анализ текста	Анализ тональности - анализ эмоциональной окраски текста (позитивная, негативная, нейтральная) Анализ личностных маркеров (LIWC-подход) Психолингвистический анализ, основанный на выявлении определённых категорий слов, отражающих психологические процессы

Сравнительный анализ структурных характеристик

Использование служебных слов

Кластеризация и сетевой анализ

Служебные слова (предлоги, союзы, артикли) менее зависимы от темы и более чутко отражают авторский стиль.

@@ Строка 1: / Строка 1: @@
 {{Scripting Tutorials
-|Description=Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примерестудентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
+|Description=Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примере студентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
 |Field_of_knowledge=Лингвистика, Литература, Статистика
 |Возрастная категория=16
 |similar_concepts=Статистика
-|Environment=R, VOYANT Tools
+|Environment=R, VOYANT Tools, StatKey
 }}
 == Введение ==
@@ Строка 23: / Строка 23: @@
 {{#ask: [[Как извлечь данные из категории Digida]] | ?Description }}
+== [[Поверхностный анализ текста]] ==
+{{#ask: [[Как провести поверхностный анализ текста]] | ?Description }}
+; Результат интерпретации:
+# средний объём статей между историками и филологами
+# синтаксическую сложность (длину предложений)
+# различия в средней длине слова (терминологичность текстов)
+[[Voyant Tools]]:
+*  '''Summary''' — общая статистика (Total Words, Unique Words, Average Word Length, Average Words per Sentence)
+*  '''Trends''' — сравнение распределения ключевых слов между историками и филологами
+== Лингвистический анализ текста  ==
+* [[Как провести лингвистический анализ текста]]
+== Семантический анализ текста  ==
+* [[Как провести семантический анализ текста]]
+{{#ask: [[Как провести семантический анализ текста]] | ?Description }}
+== Сравнительный анализ структурных характеристик ==
+=== Использование служебных слов ===
+=== Кластеризация и сетевой анализ ===
+Служебные слова (предлоги, союзы, артикли) менее зависимы от темы и более чутко отражают авторский стиль.

Аноним

Поиск

Как сравнить тексты: различия между версиями

Пространства имён

Ещё

Действия на странице

Текущая версия от 16:02, 15 декабря 2025

Содержание

Введение

Теоретические основания

Подготовка данных и сбор текстов

Поверхностный анализ текста

Лингвистический анализ текста

Семантический анализ текста

Сравнительный анализ структурных характеристик

Использование служебных слов

Кластеризация и сетевой анализ

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Как сравнить тексты: различия между версиями

Текущая версия от 16:02, 15 декабря 2025

Введение

Теоретические основания

Подготовка данных и сбор текстов

Поверхностный анализ текста

Лингвистический анализ текста

Семантический анализ текста

Сравнительный анализ структурных характеристик

Использование служебных слов

Кластеризация и сетевой анализ

Навигация

Вики-инструменты

Инструменты для страниц

Категории