Методы обработки больших данных (syllabus): различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Нет описания правки
Строка 7: Строка 7:
}}
}}
В 2026 году для [[:Категория:ИНДОР-2121]]
В 2026 году для [[:Категория:ИНДОР-2121]]
<uml>
@startuml
skinparam NoteBackgroundColor tan
skinparam backgroundColor white
skinparam activity {
  BackgroundColor lightblue
  BorderColor navy
}
start
' === Цели курса ===
:Learning outcomes;
note right
Знать: основы socio-semantic systems и big data
Уметь: извлекать, очищать, анализировать и визуализировать данные
Владеть: связкой Digida(SMW)+Lua+External Data+NetLogo+R+Java(MapReduce)
end note
:Ключевые концепции;
note left
Socio-semantic systems (Roth)
Биграфы/гиперграфы акторов и страниц
Семантические свойства SMW
Экспериментальные данные NetLogo
MapReduce и статистический анализ (R)
end note
:Ресурсы и инфраструктура;
note right
Digida.mgpu.ru (SMW, PageForms, ExternalData, Scribunto)
MediaWiki API (логи активности)
NetLogo + BehaviorSpace
R (tidyverse, igraph)
Java (MapReduce-паттерны)
end note
' === Планирование исследования ===
partition "Коллективное исследование" {
  :Формулирование исследовательских вопросов;
  note right
Социосемантическая сеть Digida:
кто с кем и через какие страницы связан?
Какие темы и курсы образуют кластеры?
Как соотносится социальная и семантическая структура?
end note
  :Выбор сценариев данных;
  note left
Сценарий 1: Digida как socio-semantic system
Сценарий 2: NetLogo как фабрика данных
Сценарий 3: гибрид Digida + NetLogo + внешние данные
end note
}
' === Ветвление по источникам данных ===
fork
  partition "Сценарий 1: Digida / SMW" {
    :Изучение устройства данных Digida;
    note right
Структура страниц и категорий
Семантические свойства и шаблоны (PageForms)
Faceted search, Special:Properties, Special:Concepts
end note
    :Доступ к данным Digida;
    note left
Экспорт структурированных данных через #ask
Получение логов активности через MediaWiki API
Построение биграфа участник–страница
end note
    :Конструирование socio-semantic графов;
    note right
Акторы, страницы, категории, свойства
Биграфы, проекции, гиперграфы (по Roth)
Подготовка данных для R
end note
  }
fork again
  partition "Сценарий 2: NetLogo" {
    :Выбор и документирование моделей NetLogo;
    note right
Модели swarm robotics / учебных аудиторий
Документация по ODD и Digida-страница модели
end note
    :Генерация экспериментальных данных (BehaviorSpace);
    note left
Параметрические серии запусков
Экспорт логов в CSV
Описание датасетов на Digida
end note
  }
fork again
  partition "Сценарий 3: Внешние данные" {
    :Получение внешних данных через External Data;
    note right
Настройка getWebData / getExternalData
Подключение открытых наборов данных
Интеграция с Digida как Dataset-страниц
end note
    :Обработка внешних данных в Lua + Scribunto;
    note left
Lua-модули для запросов и форматирования
Встраивание таблиц и показателей в wiki-страницы
Соединение внешних данных с локальными свойствами SMW
end note
  }
end fork
' === Единый поток обработки данных ===
partition "Пайплайн обработки данных" {
  :Очистка и нормализация данных;
  note right
OpenRefine для CSV (Digida/NetLogo/внешние источники)
Приведение идентификаторов акторов, страниц, свойств
Подготовка «чистой» версии для Java и R
end note
  :Java и MapReduce-парадигма;
  note left
Реализация MapReduce-паттернов (локально)
Агрегирование логов:
по участникам, страницам, моделям, экспериментам
Подготовка итоговых файлов для анализа в R
end note
  :Статистический и сетевой анализ в R;
  note right
Анализ socio-semantic графов (igraph)
Модели влияния и ко-эволюции (по Roth)
Анализ NetLogo-экспериментов (efficiency, устойчивость)
Визуализация результатов
end note
}
' === Интеграция в Digida как socio-semantic лаборатория ===
partition "Active Essay и репрезентация знаний" {
  :Проектные Active Essays в Digida;
  note left
Каждая группа оформляет исследование
Текст + графики + фрагменты кода
Связь с SMW-объектами (Course, Dataset, Model, Tool)
end note
  :Lua-модули и визуализации;
  note right
Scribunto-модули для динамических вставок данных
Использование Widgets, PlantUML, Mermaid
Построение socio-semantic карт Digida
end note
  :Рефлексия и сопоставление кейсов;
  note left
Сравнение исследовательских проектов
Обсуждение ко-эволюции социального и семантического
Постановка вопросов для следующих потоков курса
end note
}
:Learning outputs;
note right
Коллективный socio-semantic портрет Digida
Набор датасетов (Digida, NetLogo, внешние)
Активные эссе, Lua-модули, R/Java-код
Освоенный пайплайн big data в образовательном контексте
end note
if (Достигнуты ли результаты?) then (нет)
  :Анализ пробелов и доработка;
  :Повторный цикл исследования;
  stop
else (да)
  :Фиксация результатов и публикация;
endif
stop
@enduml
</uml>

Версия от 13:11, 15 февраля 2026



Планируемые результаты обучения (Знать, Уметь, Владеть)
  • Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты, NetLogo модели), адаптировать их для учебных задач.
  • Освоить основные подходы к обработке и визуализации больших данных.
  • Уметь выявлять структуры, отношения и тренды в образовательных и языковых данных,.
  • Разработать свои проекты по обработке цифровых данных, применимых в школьной практике и во внеурочной деятельности.
Содержание разделов курса
Видео запись
Среды и средства, которые поддерживают учебный курс R, Java, OpenRefine, NetLogo, VOSviewer, RAWGraphs, Mermaid, Semantic MediaWiki
Книги, на которых основывается учебный курс

В 2026 году для Категория:ИНДОР-2121