Запрос в Песочницу API Хадижа: различия между версиями

Текущая версия от 14:07, 13 июня 2026

Описание

MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования.

В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью.

API-запрос

Использованный запрос:

http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json

Параметры запроса:

action=query — тип действия: запрос данных
titles — названия страниц через символ |
prop=revisions — получить содержимое страниц
rvprop=content — вернуть текст страниц
format=json — формат ответа JSON

Результат

API вернул содержимое трёх страниц в формате JSON:

Страница	ID	Год	Автор
Sorting Things Out	3689	1999	Bowker, Star
On memory	3733	1990	Flusser
Literacy and Education	1838	2014	Gee

Каждая страница содержит шаблон {{Book}} с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.

Зачем это нужно

API — это первый шаг в цепочке работы с лингвистическим корпусом:

API → автоматически выгружаем тексты из вики
OpenRefine → очищаем и структурируем данные
R → анализируем корпус: частотность, TTR, биграммы

Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным.

Что содержит ответ API

Ответ в формате JSON включает:

pageid — уникальный ID страницы на платформе
title — название страницы
revisions — история версий с полным текстом в разметке MediaWiki
Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом

@@ Строка 1: / Строка 1: @@
 == Описание ==
-С помощью MediaWiki API был получен контент 3 страниц из категории, связанной с памятью и грамотностью.
+MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования.
+В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью.
 == API-запрос ==
 Использованный запрос:
-<code>http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json</code>
+<code><nowiki>http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json</nowiki></code>
 Параметры запроса:
-* '''action=query''' — тип действия
-* '''titles''' — названия страниц через символ |
+* '''action=query''' — тип действия: запрос данных
+* '''titles''' — названия страниц через символ <code>|</code>
 * '''prop=revisions''' — получить содержимое страниц
 * '''rvprop=content''' — вернуть текст страниц
-* '''format=json''' — формат ответа
+* '''format=json''' — формат ответа JSON
 == Результат ==
-API вернул содержимое трёх страниц:
+API вернул содержимое трёх страниц в формате JSON:
 {| class="wikitable"
-! Страница !! ID !! Год
+! Страница !! ID !! Год !! Автор
 |-
-| [[Sorting Things Out]] || 3689 || 1999
+| [[Sorting Things Out]] || 3689 || 1999 || Bowker, Star
 |-
-| [[On memory]] || 3733 || 1990
+| [[On memory]] || 3733 || 1990 || Flusser
 |-
-| [[Literacy and Education]] || 1838 || 2014
+| [[Literacy and Education]] || 1838 || 2014 || Gee
 |}
 Каждая страница содержит шаблон <code><nowiki>{{Book}}</nowiki></code> с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.
+== Зачем это нужно ==
+API — это первый шаг в цепочке работы с лингвистическим корпусом:
+# '''API''' → автоматически выгружаем тексты из вики
+# '''OpenRefine''' → очищаем и структурируем данные
+# '''R''' → анализируем корпус: частотность, TTR, биграммы
+Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным.
+== Что содержит ответ API ==
+Ответ в формате JSON включает:
+* '''pageid''' — уникальный ID страницы на платформе
+* '''title''' — название страницы
+* '''revisions''' — история версий с полным текстом в разметке MediaWiki
+* Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом
 [[Категория:CompLing Works]]

Аноним

Поиск

Запрос в Песочницу API Хадижа: различия между версиями

Пространства имён

Ещё

Действия на странице

Текущая версия от 14:07, 13 июня 2026

Содержание

Описание

API-запрос

Результат

Зачем это нужно

Что содержит ответ API

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Запрос в Песочницу API Хадижа: различия между версиями

Текущая версия от 14:07, 13 июня 2026

Описание

API-запрос

Результат

Зачем это нужно

Что содержит ответ API

Навигация

Вики-инструменты

Инструменты для страниц

Категории