Методы обработки больших данных (syllabus): различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Нет описания правки
Строка 19: Строка 19:
start
start


' === Цели курса ===
:Learning outcomes;
:Learning outcomes;  
note right
note right
Знать: основы socio-semantic systems и big data
Освоить пайплайн big data в Digida+NetLogo:
Уметь: извлекать, очищать, анализировать и визуализировать данные
социосемантический анализ + экспериментальные данные
Владеть: связкой Digida(SMW)+Lua+External Data+NetLogo+R+Java(MapReduce)
end note
end note


:Ключевые концепции;
:Ключевые концепции;
note left
note left
Socio-semantic systems (Roth)
Socio-semantic graphs (Roth)
Биграфы/гиперграфы акторов и страниц
NetLogo BehaviorSpace
Семантические свойства SMW
SMW свойства + MediaWiki API
Экспериментальные данные NetLogo
MapReduce + R анализ
MapReduce и статистический анализ (R)
end note
end note


:Ресурсы и инфраструктура;
:Ресурсы;
note right
note right
Digida.mgpu.ru (SMW, PageForms, ExternalData, Scribunto)
Digida.mgpu.ru (SMW, Lua, External Data)
MediaWiki API (логи активности)
NetLogo модели
NetLogo + BehaviorSpace
R, Java, OpenRefine
R (tidyverse, igraph)
Java (MapReduce-паттерны)
end note
end note


' === Планирование исследования ===
partition "Гибрид Digida + NetLogo" {
partition "Коллективное исследование" {
 
 
   :1. Данные Digida;
   :Формулирование исследовательских вопросов;
   note right
   note right
Социосемантическая сеть Digida:
#ask для страниц/свойств
кто с кем и через какие страницы связан?
MediaWiki API для логов активности
Какие темы и курсы образуют кластеры?
Биграф участник–страница
Как соотносится социальная и семантическая структура?
end note
end note
 
 
   :Выбор сценариев данных;
   fork
   note left
    :2. NetLogo эксперименты;
Сценарий 1: Digida как socio-semantic system
   fork again
Сценарий 2: NetLogo как фабрика данных
    :3. Внешние данные (External Data)
Сценарий 3: гибрид Digida + NetLogo + внешние данные
  end fork
end note
 
 
  :Объединение в CSV;
}
}


' === Ветвление по источникам данных ===
:4. Очистка (OpenRefine);
fork
:5. MapReduce (Java);
  partition "Сценарий 1: Digida / SMW" {
:6. Анализ + визуализация (R);
    :Изучение устройства данных Digida;
    note right
Структура страниц и категорий
Семантические свойства и шаблоны (PageForms)
Faceted search, Special:Properties, Special:Concepts
end note
 
    :Доступ к данным Digida;
    note left
Экспорт структурированных данных через #ask
Получение логов активности через MediaWiki API
Построение биграфа участник–страница
end note


    :Конструирование socio-semantic графов;
partition "Active Essay на Digida" {
    note right
  :7. Lua-модули + SMW свойства;
Акторы, страницы, категории, свойства
   :8. Active Essay с результатами;
Биграфы, проекции, гиперграфы (по Roth)
Подготовка данных для R
end note
  }
 
fork again
  partition "Сценарий 2: NetLogo" {
    :Выбор и документирование моделей NetLogo;
    note right
Модели swarm robotics / учебных аудиторий
Документация по ODD и Digida-страница модели
end note
 
    :Генерация экспериментальных данных (BehaviorSpace);
    note left
Параметрические серии запусков
Экспорт логов в CSV
Описание датасетов на Digida
end note
  }
 
fork again
  partition "Сценарий 3: Внешние данные" {
    :Получение внешних данных через External Data;
    note right
Настройка getWebData / getExternalData
Подключение открытых наборов данных
Интеграция с Digida как Dataset-страниц
end note
 
    :Обработка внешних данных в Lua + Scribunto;
    note left
Lua-модули для запросов и форматирования
Встраивание таблиц и показателей в wiki-страницы
Соединение внешних данных с локальными свойствами SMW
end note
  }
end fork
 
' === Единый поток обработки данных ===
partition "Пайплайн обработки данных" {
 
  :Очистка и нормализация данных;
   note right
OpenRefine для CSV (Digida/NetLogo/внешние источники)
Приведение идентификаторов акторов, страниц, свойств
Подготовка «чистой» версии для Java и R
end note
 
  :Java и MapReduce-парадигма;
  note left
Реализация MapReduce-паттернов (локально)
Агрегирование логов:
по участникам, страницам, моделям, экспериментам
Подготовка итоговых файлов для анализа в R
end note
 
  :Статистический и сетевой анализ в R;
  note right
Анализ socio-semantic графов (igraph)
Модели влияния и ко-эволюции (по Roth)
Анализ NetLogo-экспериментов (efficiency, устойчивость)
Визуализация результатов
end note
 
}
 
' === Интеграция в Digida как socio-semantic лаборатория ===
partition "Active Essay и репрезентация знаний" {
 
  :Проектные Active Essays в Digida;
  note left
Каждая группа оформляет исследование
Текст + графики + фрагменты кода
Связь с SMW-объектами (Course, Dataset, Model, Tool)
end note
 
  :Lua-модули и визуализации;
  note right
Scribunto-модули для динамических вставок данных
Использование Widgets, PlantUML, Mermaid
Построение socio-semantic карт Digida
end note
 
  :Рефлексия и сопоставление кейсов;
  note left
Сравнение исследовательских проектов
Обсуждение ко-эволюции социального и семантического
Постановка вопросов для следующих потоков курса
end note
}
}


:Learning outputs;
:Learning outputs;
note right
note right
Коллективный socio-semantic портрет Digida
Социосемантический портрет Digida
Набор датасетов (Digida, NetLogo, внешние)
Анализ NetLogo-данных
Активные эссе, Lua-модули, R/Java-код
Active Essay + код
Освоенный пайплайн big data в образовательном контексте
end note
end note
if (Достигнуты ли результаты?) then (нет)
  :Анализ пробелов и доработка;
  :Повторный цикл исследования;
  stop
else (да)
  :Фиксация результатов и публикация;
endif


stop
stop
@enduml
@enduml
</uml>
</uml>

Версия от 13:27, 15 февраля 2026



Планируемые результаты обучения (Знать, Уметь, Владеть)
  • Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты, NetLogo модели), адаптировать их для учебных задач.
  • Освоить основные подходы к обработке и визуализации больших данных.
  • Уметь выявлять структуры, отношения и тренды в образовательных и языковых данных,.
  • Разработать свои проекты по обработке цифровых данных, применимых в школьной практике и во внеурочной деятельности.
Содержание разделов курса
Видео запись
Среды и средства, которые поддерживают учебный курс R, Java, OpenRefine, NetLogo, VOSviewer, RAWGraphs, Mermaid, Semantic MediaWiki
Книги, на которых основывается учебный курс

В 2026 году для Категория:ИНДОР-2121

Diagrams error (with plantuml command): Error line 48 in file: /tmp/diagrams_in2f5406191999.plantuml Some diagram description contains errors