Запрос в Песочницу API Хадижа: различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Нет описания правки
 
Строка 1: Строка 1:
== Описание ==
== Описание ==


С помощью MediaWiki API был получен контент 3 страниц из категории, связанной с памятью и грамотностью.
MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования.
 
В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью.


== API-запрос ==
== API-запрос ==


Использованный запрос:
Использованный запрос:
<code>http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json</code>
 
<code><nowiki>http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json</nowiki></code>


Параметры запроса:
Параметры запроса:
* '''action=query''' — тип действия
 
* '''titles''' — названия страниц через символ |
* '''action=query''' — тип действия: запрос данных
* '''titles''' — названия страниц через символ <code>|</code>
* '''prop=revisions''' — получить содержимое страниц
* '''prop=revisions''' — получить содержимое страниц
* '''rvprop=content''' — вернуть текст страниц
* '''rvprop=content''' — вернуть текст страниц
* '''format=json''' — формат ответа
* '''format=json''' — формат ответа JSON


== Результат ==
== Результат ==


API вернул содержимое трёх страниц:
API вернул содержимое трёх страниц в формате JSON:


{| class="wikitable"
{| class="wikitable"
! Страница !! ID !! Год
! Страница !! ID !! Год !! Автор
|-
|-
| [[Sorting Things Out]] || 3689 || 1999
| [[Sorting Things Out]] || 3689 || 1999 || Bowker, Star
|-
|-
| [[On memory]] || 3733 || 1990
| [[On memory]] || 3733 || 1990 || Flusser
|-
|-
| [[Literacy and Education]] || 1838 || 2014
| [[Literacy and Education]] || 1838 || 2014 || Gee
|}
|}


Каждая страница содержит шаблон <code><nowiki>{{Book}}</nowiki></code> с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.
Каждая страница содержит шаблон <code><nowiki>{{Book}}</nowiki></code> с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.
== Зачем это нужно ==
API — это первый шаг в цепочке работы с лингвистическим корпусом:
# '''API''' → автоматически выгружаем тексты из вики
# '''OpenRefine''' → очищаем и структурируем данные
# '''R''' → анализируем корпус: частотность, TTR, биграммы
Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным.
== Что содержит ответ API ==
Ответ в формате JSON включает:
* '''pageid''' — уникальный ID страницы на платформе
* '''title''' — название страницы
* '''revisions''' — история версий с полным текстом в разметке MediaWiki
* Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом


[[Категория:CompLing Works]]
[[Категория:CompLing Works]]

Текущая версия от 14:07, 13 июня 2026

Описание

MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования.

В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью.

API-запрос

Использованный запрос:

http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json

Параметры запроса:

  • action=query — тип действия: запрос данных
  • titles — названия страниц через символ |
  • prop=revisions — получить содержимое страниц
  • rvprop=content — вернуть текст страниц
  • format=json — формат ответа JSON

Результат

API вернул содержимое трёх страниц в формате JSON:

Страница ID Год Автор
Sorting Things Out 3689 1999 Bowker, Star
On memory 3733 1990 Flusser
Literacy and Education 1838 2014 Gee

Каждая страница содержит шаблон {{Book}} с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.

Зачем это нужно

API — это первый шаг в цепочке работы с лингвистическим корпусом:

  1. API → автоматически выгружаем тексты из вики
  2. OpenRefine → очищаем и структурируем данные
  3. R → анализируем корпус: частотность, TTR, биграммы

Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным.

Что содержит ответ API

Ответ в формате JSON включает:

  • pageid — уникальный ID страницы на платформе
  • title — название страницы
  • revisions — история версий с полным текстом в разметке MediaWiki
  • Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом