Запрос в Песочницу API Хадижа
Описание
MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования.
В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью.
API-запрос
Использованный запрос:
http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json
Параметры запроса:
- action=query — тип действия: запрос данных
- titles — названия страниц через символ
| - prop=revisions — получить содержимое страниц
- rvprop=content — вернуть текст страниц
- format=json — формат ответа JSON
Результат
API вернул содержимое трёх страниц в формате JSON:
| Страница | ID | Год | Автор |
|---|---|---|---|
| Sorting Things Out | 3689 | 1999 | Bowker, Star |
| On memory | 3733 | 1990 | Flusser |
| Literacy and Education | 1838 | 2014 | Gee |
Каждая страница содержит шаблон {{Book}} с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.
Зачем это нужно
API — это первый шаг в цепочке работы с лингвистическим корпусом:
- API → автоматически выгружаем тексты из вики
- OpenRefine → очищаем и структурируем данные
- R → анализируем корпус: частотность, TTR, биграммы
Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным.
Что содержит ответ API
Ответ в формате JSON включает:
- pageid — уникальный ID страницы на платформе
- title — название страницы
- revisions — история версий с полным текстом в разметке MediaWiki
- Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом
