Запрос в Песочницу API Хадижа: различия между версиями
Нет описания правки |
Нет описания правки |
||
| Строка 1: | Строка 1: | ||
== Описание == | == Описание == | ||
MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования. | |||
В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью. | |||
== API-запрос == | == API-запрос == | ||
Использованный запрос: | Использованный запрос: | ||
<code>http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json</code> | |||
<code><nowiki>http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json</nowiki></code> | |||
Параметры запроса: | Параметры запроса: | ||
* '''action=query''' — тип действия | |||
* '''titles''' — названия страниц через символ | | * '''action=query''' — тип действия: запрос данных | ||
* '''titles''' — названия страниц через символ <code>|</code> | |||
* '''prop=revisions''' — получить содержимое страниц | * '''prop=revisions''' — получить содержимое страниц | ||
* '''rvprop=content''' — вернуть текст страниц | * '''rvprop=content''' — вернуть текст страниц | ||
* '''format=json''' — формат ответа | * '''format=json''' — формат ответа JSON | ||
== Результат == | == Результат == | ||
API вернул содержимое трёх страниц: | API вернул содержимое трёх страниц в формате JSON: | ||
{| class="wikitable" | {| class="wikitable" | ||
! Страница !! ID !! Год | ! Страница !! ID !! Год !! Автор | ||
|- | |- | ||
| [[Sorting Things Out]] || 3689 || 1999 | | [[Sorting Things Out]] || 3689 || 1999 || Bowker, Star | ||
|- | |- | ||
| [[On memory]] || 3733 || 1990 | | [[On memory]] || 3733 || 1990 || Flusser | ||
|- | |- | ||
| [[Literacy and Education]] || 1838 || 2014 | | [[Literacy and Education]] || 1838 || 2014 || Gee | ||
|} | |} | ||
Каждая страница содержит шаблон <code><nowiki>{{Book}}</nowiki></code> с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year. | Каждая страница содержит шаблон <code><nowiki>{{Book}}</nowiki></code> с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year. | ||
== Зачем это нужно == | |||
API — это первый шаг в цепочке работы с лингвистическим корпусом: | |||
# '''API''' → автоматически выгружаем тексты из вики | |||
# '''OpenRefine''' → очищаем и структурируем данные | |||
# '''R''' → анализируем корпус: частотность, TTR, биграммы | |||
Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным. | |||
== Что содержит ответ API == | |||
Ответ в формате JSON включает: | |||
* '''pageid''' — уникальный ID страницы на платформе | |||
* '''title''' — название страницы | |||
* '''revisions''' — история версий с полным текстом в разметке MediaWiki | |||
* Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом | |||
[[Категория:CompLing Works]] | [[Категория:CompLing Works]] | ||
Текущая версия от 14:07, 13 июня 2026
Описание
MediaWiki API — это программный интерфейс, который позволяет автоматически получать данные из вики-платформ: тексты статей, метаданные, списки страниц по категориям. Это основной способ собрать лингвистический корпус без ручного копирования.
В этом задании с помощью API был получен контент 3 страниц с платформы digida.mgpu.ru из категории, связанной с памятью и грамотностью.
API-запрос
Использованный запрос:
http://digida.mgpu.ru/api.php?action=query&titles=Sorting_Things_Out|On_memory|Literacy_and_Education&prop=revisions&rvprop=content&format=json
Параметры запроса:
- action=query — тип действия: запрос данных
- titles — названия страниц через символ
| - prop=revisions — получить содержимое страниц
- rvprop=content — вернуть текст страниц
- format=json — формат ответа JSON
Результат
API вернул содержимое трёх страниц в формате JSON:
| Страница | ID | Год | Автор |
|---|---|---|---|
| Sorting Things Out | 3689 | 1999 | Bowker, Star |
| On memory | 3733 | 1990 | Flusser |
| Literacy and Education | 1838 | 2014 | Gee |
Каждая страница содержит шаблон {{Book}} с полями Description, Field_of_knowledge, Inventor и семантическими свойствами Author и Year.
Зачем это нужно
API — это первый шаг в цепочке работы с лингвистическим корпусом:
- API → автоматически выгружаем тексты из вики
- OpenRefine → очищаем и структурируем данные
- R → анализируем корпус: частотность, TTR, биграммы
Без API пришлось бы копировать каждую страницу вручную. При корпусе из 50+ страниц это становится невозможным.
Что содержит ответ API
Ответ в формате JSON включает:
- pageid — уникальный ID страницы на платформе
- title — название страницы
- revisions — история версий с полным текстом в разметке MediaWiki
- Текст содержит шаблоны, семантические свойства и вики-разметку, которую нужно очистить перед анализом
