Как сравнить тексты: различия между версиями

Материал из Поле цифровой дидактики
Строка 22: Строка 22:
== Подготовка данных и сбор текстов ==
== Подготовка данных и сбор текстов ==


{{#ask: [[Как извлечь данные из категории Digida]] | ?Descriptiion }}
{{#ask: [[Как извлечь данные из категории Digida]] | ?Description }}

Версия от 16:27, 10 декабря 2025

Описание Статья описывает методику комплексного сравнительного анализа текстовых корпусов. На примерестудентов историков и филологов с площадки Digida.mgpu.ru, с использованием инструментов R и Voyant Tools.
Область знаний Лингвистика, Литература, Статистика
Область использования (ISTE)
Возрастная категория 16


Поясняющее видео
Близкие рецепту понятия Статистика
Среды и средства для приготовления рецепта: R, VOYANT Tools

Введение

Корпус текстов студентов историков (45 статей из категории "Работы историков ИГН") и студентов филологов (49 статей из категории "Работы филологов ИГН") отражает различные подходы к работе с текстом, обусловленные спецификой дисциплин. Сравнительный анализ этих корпусов позволит выявить различия в стиле письма, лексико-семантических предпочтениях, структурировании информации и когнитивных стратегиях.

Теоретические основания

Сравнительный анализ основан на следующих принципах:

  • Corpus linguistics — анализ больших текстовых совокупностей с использованием компьютерных методов
  • Distant reading (Моретти) — макроскопический анализ корпуса как альтернатива микроанализу
  • Stylometry — количественное изучение авторского стиля через лингвистические параметры
  • Academic discourse analysis — выявление особенностей научного стиля различных дисциплин


Подготовка данных и сбор текстов

 Description
Как извлечь данные из категории DigidaМы хотим проанализировать тексты, которые хранятся в статья определенной категории поля цифровой дидактики. Есть 2 способа - экспорт статей и использование MediaWiki API