Как сравнить тексты: различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
 
(не показано 7 промежуточных версий этого же участника)
Строка 1: Строка 1:
{{Scripting Tutorials
{{Scripting Tutorials
|Description=Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примерестудентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
|Description=Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примере студентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
|Field_of_knowledge=Лингвистика, Литература, Статистика
|Field_of_knowledge=Лингвистика, Литература, Статистика
|Возрастная категория=16
|Возрастная категория=16
|similar_concepts=Статистика
|similar_concepts=Статистика
|Environment=R, VOYANT Tools
|Environment=R, VOYANT Tools, StatKey
}}
}}
== Введение ==
== Введение ==
Строка 23: Строка 23:


{{#ask: [[Как извлечь данные из категории Digida]] | ?Description }}
{{#ask: [[Как извлечь данные из категории Digida]] | ?Description }}
== [[Поверхностный анализ текста]] ==
{{#ask: [[Как провести поверхностный анализ текста]] | ?Description }}
; Результат интерпретации:
# средний объём статей между историками и филологами
# синтаксическую сложность (длину предложений)
# различия в средней длине слова (терминологичность текстов)
[[Voyant Tools]]:
*  '''Summary''' — общая статистика (Total Words, Unique Words, Average Word Length, Average Words per Sentence)
*  '''Trends''' — сравнение распределения ключевых слов между историками и филологами
== Лингвистический анализ текста  ==
* [[Как провести лингвистический анализ текста]]
== Семантический анализ текста  ==
* [[Как провести семантический анализ текста]]
{{#ask: [[Как провести семантический анализ текста]] | ?Description }}
== Сравнительный анализ структурных характеристик ==
=== Использование служебных слов ===
=== Кластеризация и сетевой анализ ===
Служебные слова (предлоги, союзы, артикли) менее зависимы от темы и более чутко отражают авторский стиль.

Текущая версия от 16:02, 15 декабря 2025

Описание Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примере студентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
Область знаний Лингвистика, Литература, Статистика
Область использования (ISTE)
Возрастная категория 16


Поясняющее видео
Близкие рецепту понятия Статистика
Среды и средства для приготовления рецепта: R, VOYANT Tools, StatKey

Введение

Корпус текстов студентов историков (45 статей из категории "Работы историков ИГН") и студентов филологов (49 статей из категории "Работы филологов ИГН") отражает различные подходы к работе с текстом, обусловленные спецификой дисциплин. Сравнительный анализ этих корпусов позволит выявить различия в стиле письма, лексико-семантических предпочтениях, структурировании информации и когнитивных стратегиях.

Теоретические основания

Сравнительный анализ основан на следующих принципах:

  • Corpus linguistics — анализ больших текстовых совокупностей с использованием компьютерных методов
  • Distant reading (Моретти) — макроскопический анализ корпуса как альтернатива микроанализу
  • Stylometry — количественное изучение авторского стиля через лингвистические параметры
  • Academic discourse analysis — выявление особенностей научного стиля различных дисциплин


Подготовка данных и сбор текстов

 Description
Как извлечь данные из категории DigidaМы хотим проанализировать тексты, которые хранятся в статья определенной категории поля цифровой дидактики. Есть 2 способа - экспорт статей и использование MediaWiki API
 Description
Как провести поверхностный анализ текстаПоверхностный анализ текста — это анализ легко измеримых, формальных характеристик текста, которые не требуют глубокого лингвистического анализа или интерпретации смысла. К ним относятся:
  • Количество слов, символов, предложений
  • Средняя длина слова и предложения
  • Плотность текста
Главное преимущество поверхностного анализа: быстрота, объективность, воспроизводимость результатов.
Результат интерпретации
  1. средний объём статей между историками и филологами
  2. синтаксическую сложность (длину предложений)
  3. различия в средней длине слова (терминологичность текстов)


Voyant Tools:

  • Summary — общая статистика (Total Words, Unique Words, Average Word Length, Average Words per Sentence)
  • Trends — сравнение распределения ключевых слов между историками и филологами


Лингвистический анализ текста

Семантический анализ текста

 Description
Как провести семантический анализ текста
  • Анализ тональности - анализ эмоциональной окраски текста (позитивная, негативная, нейтральная)
  • Анализ личностных маркеров (LIWC-подход) Психолингвистический анализ, основанный на выявлении определённых категорий слов, отражающих психологические процессы

Сравнительный анализ структурных характеристик

Использование служебных слов

Кластеризация и сетевой анализ

Служебные слова (предлоги, союзы, артикли) менее зависимы от темы и более чутко отражают авторский стиль.