Методы обработки больших данных (syllabus)

Материал из Поле цифровой дидактики



Планируемые результаты обучения (Знать, Уметь, Владеть)
  • Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты, NetLogo модели), адаптировать их для учебных задач.
  • Освоить основные подходы к обработке и визуализации больших данных.
  • Уметь выявлять структуры, отношения и тренды в образовательных и языковых данных,.
  • Разработать свои проекты по обработке цифровых данных, применимых в школьной практике и во внеурочной деятельности.
Содержание разделов курса
Видео запись
Среды и средства, которые поддерживают учебный курс R, Java, OpenRefine, NetLogo, VOSviewer, RAWGraphs, Mermaid, Semantic MediaWiki, CORGIS, CODAP
Книги, на которых основывается учебный курс APIs for social scientists: A collaborative review, Big Data with R, R for Data Science

В 2026 году для Категория:ИНДОР-211

Описание курса

Курс строится вокруг идеи, что Digida как Semantic MediaWiki — это живой социосемантический объект, в котором совместно эволюционируют социальная сеть участников и семантическая сеть страниц, категорий и свойств. Дополнительно к этому объекту подключаются экспериментальные данные NetLogo и внешние датасеты, поступающие через расширение External Data и обрабатываемые Lua‑модулями Scribunto. Таким образом, студенты не просто изучают методы обработки больших данных, а разворачивают коллективное исследование социо-семантических систем, используя собственную образовательную инфраструктуру как исследовательское поле совместной деятельности.

Результатом курса становится сформированная у студентов способность мыслить образовательные цифровые среды как социосемантические системы и работать с ними как с источником больших данных. На уровне знаний акцент делается на структуре и семантическом слое Digida (PageForms, свойства SMW, концепты), на принципах генерации и анализа экспериментальных данных в NetLogo и BehaviorSpace. На уровне умений — на полном цикле:

  1. извлечь данные (SMW queries, MediaWiki API, External Data),
  2. очистить (OpenRefine),
  3. агрегировать в Java/MapReduce,
  4. проанализировать в R (сетевые и статистические методы),
  5. визуализировать
  6. вернуть результат в виде Active Essay на Digida.

На уровне владения — сочетать языки и инструменты (Lua, R, NetLogo, Java) в рамках единого дидактического и исследовательского сценария.

Последовательность курса

Модуль 1 Социосемантические системы и данные

Первый модуль вводит студентов в теорию социосемантических систем (Socio-semantic_network_analysis): двойственная природа акторов и артефактов, понятие социосемантических графов и гиперграфов, ко‑эволюция социальных и семантических структур. Обсуждаются социосемантические сети блогов, научных сообществ и онлайн‑платформ, что помогает студентам увидеть Digida как ещё один пример такого рода системы.

Практическая часть посвящена устройству Semantic MediaWiki в Digida: студенты изучают страничные типы, категории, свойства, PageForms и механизмы faceted search, а также знакомятся со служебными страницами свойств и концептов.

Модуль 2. Социосемантические графы Digida

Во втором модуле студенты строят из данных Digida конкретные графовые представления, необходимые для анализа. На семинарах они осваивают экспорт семантических данных через ask‑запросы SMW, получая списки страниц с их свойствами и ссылками, которые затем превращаются в таблицы для дальнейшей обработки. Параллельно они учатся получать данные об активности участников через MediaWiki API, формируя таблицы с правками, пользователями, страницами, временными метками и типами действий.

Построение биграфа «участник–страница», где вершины одного типа соответствуют пользователям, а другого — страницам Digida, соединяемым ребром, если пользователь взаимодействовал с этой страницей. На его основе конструируются социальная проекция (пользователи связаны, если имеют общие страницы) и семантическая проекция (страницы связаны через общих пользователей), а также социосемантический граф, объединяющий акторов, страницы, категории и свойства.

Модуль 3. NetLogo как генератор экспериментальных данных

Третий модуль сосредоточен на NetLogo как средстве генерации контролируемых экспериментальных данных для исследований в духе комплексных адаптивных систем и swarm robotics. Студенты знакомятся с уже существующими моделями, описанными на Digida, а также с протоколом ODD для документирования агент‑ориентированных моделей, что позволяет им воспринимать NetLogo‑модели как научные объекты. Особое внимание уделяется моделям, в которых агенты‑роботы взаимодействуют между собой и со средой, демонстрируя коллективное поведение, устойчивость или сбои в выполнении задач.

Практические занятия посвящены использованию BehaviorSpace для запуска серий экспериментов с варьированием параметров (число агентов, плотность препятствий, алгоритмы поведения, шум и ошибки). Каждый запуск порождает логи, которые экспортируются в CSV и описываются как Dataset‑страницы в Digida, с указанием параметров, используемых моделей и ссылок на NetLogo‑файлы. Таким образом, формируется второй крупный источник данных курса — параметрические экспериментальные массивы, через которые можно исследовать связь между конфигурациями модели и производительностью системы, интегрируя эти результаты в общую картину.

Модуль 4. Внешние данные, External Data и Lua + Scribunto

Четвёртый модуль расширяет горизонты курса за счёт подключения внешних открытых данных через расширение External Data в MediaWiki. Студенты изучают синтаксис getWebData и getExternalData, учатся подключать CSV и другие форматы по URL и связывать их с шаблонами и страницами Digida. В качестве примеров могут использоваться наборы об образовательных технологиях, городских данных, открытых библиометрических источниках.

Переход к Lua и Scribunto: пишем модули, которые получают данные через External Data, агрегируют и форматируют их, а затем выводят в виде таблиц, графиков или показателей прямо на wiki‑страницах. Такой подход позволяет строить динамические Active Essay, в которых текст сочетается с живыми данными, при этом семантические свойства SMW связывают внешние сущности с локальными объектами Digida. Этот модуль подчёркивает идею социотехнических систем, где инфраструктура и алгоритмы фильтрации и представления данных становятся частью исследуемой системы, как это обсуждается в работах по социотехническим и социосемантическим системам.

Модуль 5. Очистка, MapReduce на Java и анализ в R

Пятый модуль фокусируется на методах обработки данных в «большом масштабе», объединяя OpenRefine, Java/MapReduce и R в единый пайплайн. На первом шаге студенты загружают CSV‑файлы из Digida (социосемантические данные), NetLogo (BehaviorSpace), а также внешние источники (External Data) в OpenRefine, где устраняют дубликаты, заполняют или помечают пропуски, нормализуют категории и идентификаторы. Результатом являются согласованные и «чистые» наборы данных, пригодные для программного анализа и сопоставления между собой.

Парадигма MapReduce на Java не как промышленный Hadoop‑курс, а как способ мыслить операции над данными в терминах распараллеливаемых шагов Map и Reduce. Gростые MapReduce‑задачи: подсчёт активности участников по страницам и временным окнам, агрегирование показателей экспериментов NetLogo по конфигурациям параметров, построение распределений и сводных таблиц для дальнейшего статистического анализа. Эти упражнения помогают увидеть общий паттерн «разделяй–обрабатывай–агрегируй», а также подготовить данные к следующему этапу, где R используется для более сложных моделей и визуализаций.

На завершающем этапе этого модуля студенты применяют R, опираясь на пакеты tidyverse и igraph, чтобы анализировать графы Digida, сетевые свойства и центральности, а также результаты NetLogo‑экспериментов. Они исследуют, как различные параметры моделей связаны с производительностью агентов, и как структурные характеристики социальной и семантической сети соотносятся с устойчивостью и динамикой активности. Визуализации и выводы экспортируются в виде графиков и таблиц, которые затем встраиваются в Digida через Lua‑модули или статические изображения, формируя связку «анализ → репрезентация → обсуждение».


Модуль 6. Active Essay и коллективное социосемантическое исследование

Финальный модуль объединяет все линии курса в коллективный исследовательский проект, оформленный в виде Active Essay на Digida. Каждая группа студентов выбирает собственный исследовательский вопрос в рамках общей темы: будь то морфогенез социосемантической структуры Digida, паттерны взаимодействия участников и страниц, или связь между параметрами NetLogo‑моделей и результатами групповых экспериментов. Вопрос формулируется именно как социо и как семантический: он должен одновременно касаться и поведения акторов, и конфигурации знаний или артефактов, что отражает ключевые идеи социосемантических систем.

Далее группы реализуют полный пайплайн: извлекают нужные данные (SMW ask, MediaWiki API, NetLogo BehaviorSpace, External Data), очищают их в OpenRefine, агрегируют в MapReduce‑паттернам, анализируют и визуализируют в R. Результаты структурируются на одной или нескольких wiki‑страницах Digida с использованием семантических свойств, Lua‑модулей, диаграмм PlantUML и, при необходимости, других визуальных расширений. Получившиеся Active Essays становятся одновременно учебными артефактами и вкладом в само социосемантическое поле Digida, что создаёт из курса «самоописательную» систему в духе подходов к социальному познанию и ко‑эволюции структуры и культуры.

Заключительное занятие посвящено сравнительному обсуждению всех проектов: студенты анализируют, какие типы социосемантических конфигураций были обнаружены, как они соотносятся с теоретическими моделями социосемантических сетей и какие новые вопросы возникают для следующих потоков курса. Таким образом, курс замыкает петлю: Digida выступает и как лаборатория, и как объект исследования, а студенты — как участники социосемантической системы, которые одновременно изучают её и изменяют.