Запрос в Песочницу API Хадижа

Материал из Поле цифровой дидактики

Описание

MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования.

В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью.

API-запрос

Использованный запрос:

http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json

Параметры запроса:

  • action=query — тип действия: запрос данных
  • titles — названия страниц через символ |
  • prop=revisions — получить содержимое страниц
  • rvprop=content — вернуть текст страниц
  • format=json — формат ответа JSON

Результат

API вернул содержимое трёх страниц в формате JSON:

Страница ID Год Автор
Sorting Things Out 3689 1999 Bowker, Star
On memory 3733 1990 Flusser
Literacy and Education 1838 2014 Gee

Каждая страница содержит шаблон {{Book}} с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.

Зачем это нужно

API — это первый шаг в цепочке работы с лингвистическим корпусом:

  1. API → автоматически выгружаем тексты из вики
  2. OpenRefine → очищаем и структурируем данные
  3. R → анализируем корпус: частотность, TTR, биграммы

Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным.

Что содержит ответ API

Ответ в формате JSON включает:

  • pageid — уникальный ID страницы на платформе
  • title — название страницы
  • revisions — история версий с полным текстом в разметке MediaWiki
  • Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом