Методы обработки больших данных (syllabus)

Планируемые результаты обучения (Знать, Уметь, Владеть)	Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты, NetLogo модели), адаптировать их для учебных задач. Освоить основные подходы к обработке и визуализации больших данных. Уметь выявлять структуры, отношения и тренды в образовательных и языковых данных,. Разработать свои проекты по обработке цифровых данных, применимых в школьной практике и во внеурочной деятельности.
Содержание разделов курса
Видео запись
Среды и средства, которые поддерживают учебный курс	R, Java, OpenRefine, NetLogo, VOSviewer, RAWGraphs, Mermaid, Semantic MediaWiki, CORGIS, CODAP, Digida2026
Книги, на которых основывается учебный курс	APIs for social scientists: A collaborative review, Big Data with R, R for Data Science

В 2026 году для Категория:ИНДОР-211

Описание курса

Курс строится вокруг идеи, что Digida как Semantic MediaWiki — это живой социосемантический объект, в котором совместно эволюционируют социальная сеть участников и семантическая сеть страниц, категорий и свойств. Дополнительно к этому объекту подключаются экспериментальные данные NetLogo и внешние датасеты, поступающие через расширение External Data и обрабатываемые Lua‑модулями Scribunto. Таким образом, студенты не просто изучают методы обработки больших данных, а разворачивают коллективное исследование социо-семантических систем, используя собственную образовательную инфраструктуру как исследовательское поле совместной деятельности.

Результатом курса становится сформированная у студентов способность мыслить образовательные цифровые среды как социосемантические системы и работать с ними как с источником больших данных. На уровне знаний акцент делается на структуре и семантическом слое Digida (PageForms, свойства SMW, концепты), на принципах генерации и анализа экспериментальных данных в NetLogo и BehaviorSpace. На уровне умений — на полном цикле:

извлечь данные (SMW queries, MediaWiki API, External Data),
очистить (OpenRefine),
агрегировать в Java/MapReduce,
проанализировать в R (сетевые и статистические методы),
визуализировать полученные данные
вернуть результат в виде Active Essay на Digida.

На уровне владения — сочетать языки и инструменты (Lua, R, NetLogo, Java) в рамках единого дидактического и исследовательского сценария.

Последовательность курса

Модуль 1 Социосемантические системы и данные

Первый модуль вводит студентов в теорию социосемантических систем (Socio-semantic_network_analysis): двойственная природа акторов и артефактов, понятие социосемантических графов и гиперграфов, ко‑эволюция социальных и семантических структур. Обсуждаются социосемантические сети блогов, научных сообществ и онлайн‑платформ, что помогает студентам увидеть Digida как ещё один пример такого рода системы.

Практическая часть посвящена устройству Semantic MediaWiki в Digida: студенты изучают страничные типы, категории, свойства, PageForms и механизмы faceted search, а также знакомятся со служебными страницами свойств и концептов.

Модуль 2. Социосемантические графы Digida

Во втором модуле студенты строят из данных Digida конкретные графовые представления, необходимые для анализа. На семинарах они осваивают экспорт семантических данных через ask‑запросы SMW, получая списки страниц с их свойствами и ссылками, которые затем превращаются в таблицы для дальнейшей обработки. Параллельно они учатся получать данные об активности участников через MediaWiki API, формируя таблицы с правками, пользователями, страницами, временными метками и типами действий.

Построение биграфа «участник–страница», где вершины одного типа соответствуют пользователям, а другого — страницам Digida, соединяемым ребром, если пользователь взаимодействовал с этой страницей. На его основе конструируются социальная проекция (пользователи связаны, если имеют общие страницы) и семантическая проекция (страницы связаны через общих пользователей), а также социосемантический граф, объединяющий акторов, страницы, категории и свойства.

Модуль 3. NetLogo как генератор экспериментальных данных

Третий модуль сосредоточен на NetLogo как средстве генерации контролируемых экспериментальных данных для исследований в духе комплексных адаптивных систем и swarm robotics. Студенты знакомятся с уже существующими моделями, описанными на Digida, а также с протоколом ODD для документирования агент‑ориентированных моделей, что позволяет им воспринимать NetLogo‑модели как научные объекты. Особое внимание уделяется моделям, в которых агенты‑роботы взаимодействуют между собой и со средой, демонстрируя коллективное поведение, устойчивость или сбои в выполнении задач.

Практические занятия посвящены использованию BehaviorSpace для запуска серий экспериментов с варьированием параметров (число агентов, плотность препятствий, алгоритмы поведения, шум и ошибки). Каждый запуск порождает логи, которые экспортируются в CSV и описываются как Dataset‑страницы в Digida, с указанием параметров, используемых моделей и ссылок на NetLogo‑файлы. Таким образом, формируется второй крупный источник данных курса — параметрические экспериментальные массивы, через которые можно исследовать связь между конфигурациями модели и производительностью системы, интегрируя эти результаты в общую картину.

Team Assembly (model)

https://raw.githubusercontent.com/patarakin/stat-data/refs/heads/main/datasets/csv/teams_assembly_experiment_19_03_26.csv

Модуль 4. Внешние данные, External Data и Lua + Scribunto

Четвёртый модуль расширяет горизонты курса за счёт подключения внешних открытых данных через расширение External Data в MediaWiki. Студенты изучают синтаксис getWebData и getExternalData, учатся подключать CSV и другие форматы по URL и связывать их с шаблонами и страницами Digida. В качестве примеров могут использоваться наборы об образовательных технологиях, городских данных, открытых библиометрических источниках.

Переход к Lua и Scribunto: пишем модули, которые получают данные через External Data, агрегируют и форматируют их, а затем выводят в виде таблиц, графиков или показателей прямо на wiki‑страницах. Такой подход позволяет строить динамические Active Essay, в которых текст сочетается с живыми данными, при этом семантические свойства SMW связывают внешние сущности с локальными объектами Digida. Этот модуль подчёркивает идею социотехнических систем, где инфраструктура и алгоритмы фильтрации и представления данных становятся частью исследуемой системы, как это обсуждается в работах по социотехническим и социосемантическим системам.

Модуль 5. Очистка, MapReduce на Java и анализ в R

Пятый модуль фокусируется на методах обработки данных в «большом масштабе», объединяя OpenRefine, Java/MapReduce и R в единый пайплайн. На первом шаге студенты загружают CSV‑файлы из Digida (социосемантические данные), NetLogo (BehaviorSpace), а также внешние источники (External Data) в OpenRefine, где устраняют дубликаты, заполняют или помечают пропуски, нормализуют категории и идентификаторы. Результатом являются согласованные и «чистые» наборы данных, пригодные для программного анализа и сопоставления между собой.

Парадигма MapReduce на Java не как промышленный Hadoop‑курс, а как способ мыслить операции над данными в терминах распараллеливаемых шагов Map и Reduce. Gростые MapReduce‑задачи: подсчёт активности участников по страницам и временным окнам, агрегирование показателей экспериментов NetLogo по конфигурациям параметров, построение распределений и сводных таблиц для дальнейшего статистического анализа. Эти упражнения помогают увидеть общий паттерн «разделяй–обрабатывай–агрегируй», а также подготовить данные к следующему этапу, где R используется для более сложных моделей и визуализаций.

На завершающем этапе этого модуля студенты применяют R, опираясь на пакеты tidyverse и igraph, чтобы анализировать графы Digida, сетевые свойства и центральности, а также результаты NetLogo‑экспериментов. Они исследуют, как различные параметры моделей связаны с производительностью агентов, и как структурные характеристики социальной и семантической сети соотносятся с устойчивостью и динамикой активности. Визуализации и выводы экспортируются в виде графиков и таблиц, которые затем встраиваются в Digida через Lua‑модули или статические изображения, формируя связку «анализ → репрезентация → обсуждение».

Модуль 6. Active Essay и коллективное социосемантическое исследование

Финальный модуль объединяет все линии курса в коллективный исследовательский проект, оформленный в виде Active Essay на Digida. Каждая группа студентов выбирает собственный исследовательский вопрос в рамках общей темы: будь то морфогенез социосемантической структуры Digida, паттерны взаимодействия участников и страниц, или связь между параметрами NetLogo‑моделей и результатами групповых экспериментов. Вопрос формулируется именно как социо и как семантический: он должен одновременно касаться и поведения акторов, и конфигурации знаний или артефактов, что отражает ключевые идеи социосемантических систем.

Далее группы реализуют полный пайплайн: извлекают нужные данные (SMW ask, MediaWiki API, NetLogo BehaviorSpace, External Data), очищают их в OpenRefine, агрегируют в MapReduce‑паттернам, анализируют и визуализируют в R. Результаты структурируются на одной или нескольких wiki‑страницах Digida с использованием семантических свойств, Lua‑модулей, диаграмм PlantUML и, при необходимости, других визуальных расширений. Получившиеся Active Essays становятся одновременно учебными артефактами и вкладом в само социосемантическое поле Digida, что создаёт из курса «самоописательную» систему в духе подходов к социальному познанию и ко‑эволюции структуры и культуры.

Заключительное занятие посвящено сравнительному обсуждению всех проектов: студенты анализируют, какие типы социосемантических конфигураций были обнаружены, как они соотносятся с теоретическими моделями социосемантических сетей и какие новые вопросы возникают для следующих потоков курса. Таким образом, курс замыкает петлю: Digida выступает и как лаборатория, и как объект исследования, а студенты — как участники социосемантической системы, которые одновременно изучают её и изменяют.

Примеры активных эссе

Лаборатории изучения командного творчества подростков в цифровых средах
Wealth Distribution - новые данные

Общие критерии оценивания активного эссе

Активное эссе — это интерактивная вики-страница, создаваемая студентом на поле цифровой дидактики с использованием возможностей семантической вики-среды. В отличие от традиционного эссе, активное эссе является «живым» документом, содержащим не только текст, но и программный код, интерактивные модели, структурированные данные, диаграммы и визуализации.

Оценочное средство 1: Активное эссе (страница SMW)

№	Критерий	Показатели	Баллы	Макс.
А. Содержательные критерии
1	Содержание и соответствие теме дисциплины	Эссе раскрывает заявленную тему, содержит анализ ключевых понятий дисциплины, демонстрирует понимание теоретических основ. Текст логически структурирован: введение, основная часть, выводы. Использована профессиональная терминология. Имеются ссылки на источники.	0–5	5
2	Собственная позиция и аргументация	Автор формулирует собственную точку зрения, приводит аргументы и примеры из практики, сравнивает различные подходы, делает обоснованные выводы.	0–3	3
3	Научная корректность	Использованы корректные определения и терминология, ссылки на научные источники, отсутствуют фактические ошибки.	0–2	2
Б. Критерии использования возможностей цифровой среды
4	Использование структурных диаграмм Построение диаграмм (блок-схемы, UML, графы, диаграммы последовательностей и т.д.) средствами PlantUML, Mermaid или Graphviz	Диаграммы помогают визуализировать абстрактные концепции: архитектуру систем, алгоритмы, потоки данных, связи между понятиями. Оценивается: корректность нотации, информативность диаграммы, обоснованность выбора типа диаграммы для конкретной задачи.	0–3	3
5	Использование семантических возможностей среды Семантические запросы (`{{#ask:}}`), конструирование вопросов к данным, включение форм, географических карт, лент времени	Семантические запросы позволяют строить динамические таблицы, выборки и каталоги на основе структурированных свойств страниц. Формы обеспечивают стандартизированный ввод данных. Карты и ленты времени визуализируют пространственные и временны́е отношения. Оценивается: корректность запросов, осмысленность выборки, информативность визуализации.	0–3	3
6	Включение математических или химических формул Использование тегов `<math></math>` или `<chem></chem>`	Формулы обеспечивают точную и читаемую запись математических моделей, уравнений и химических реакций. Включение формул демонстрирует владение формальным языком дисциплины и связывает теоретические основы с практикой. Оценивается: корректность записи, осмысленность использования, связь с текстом.	0–2	2
7	Включение программного кода Использование тегов `<syntaxhighlight lang="..." line>`	Программный код в эссе демонстрирует практические навыки: способность автоматизировать обработку данных, реализовать алгоритмы, воспроизвести результаты анализа. Подсветка синтаксиса и нумерация строк повышают читаемость. Оценивается: работоспособность кода, наличие комментариев, связь с темой, оригинальность решения.	0–3	3
8	Включение интерактивных приложений Встраивание проектов Snap!, Scratch или иных визуальных программных сред	Интерактивные приложения позволяют читателю эссе непосредственно взаимодействовать с программными моделями: запускать симуляции, менять параметры, наблюдать результаты. Это превращает эссе из статического текста в интерактивную учебную среду. Оценивается: работоспособность приложения, связь с темой, уровень интерактивности.	0–3	3
9	Работа с внешними данными Подключение внешних источников данных, их фильтрация и представление в виде таблиц (расширение External Data)	Подключение внешних данных позволяет работать с реальными, актуальными наборами данных (открытые данные, API, базы данных), а не с искусственными примерами. Фильтрация и представление в таблицах демонстрируют навыки работы с данными. Оценивается: релевантность источника, корректность фильтрации, информативность представления.	0–3	3
10	Включение многоагентных моделей NetLogo Встраивание моделей NetLogo для демонстрации агентных симуляций	Многоагентные модели позволяют исследовать сложные системы: показать, как простые правила поведения агентов порождают макроуровневые паттерны. Встраивание модели в эссе даёт читателю возможность запустить симуляцию, изменить параметры и самостоятельно исследовать результаты. Оценивается: соответствие модели теме, корректность настройки параметров, наличие пояснений.	0–3	3
Итого максимум			30

Шкала перевода баллов:

Баллы	Оценка
25–30	Отлично (A)
19–24	Хорошо (B)
13–18	Удовлетворительно (C)
0–12	Неудовлетворительно (F)

Оценочное средство 2: История вклада участника

№	Критерий	Показатели	Баллы	Макс.
1	Равномерность вклада по времени	Работа над эссе велась регулярно на протяжении всего периода обучения, а не концентрировалась в последний момент. История правок показывает итеративное развитие текста: от замысла к черновику, от черновика к финальной версии. Отсутствуют признаки массового копирования (крупные единовременные вставки неоригинального текста).	0–3	3
2	Качество итерационного развития	Каждая правка содержит содержательные изменения (дополнение аргументации, улучшение кода, добавление визуализаций), а не формальные косметические правки. Прослеживается логика развития работы.	0–2	2
3	Участие в обсуждении	Участник вносил вклад в обсуждение на страницах обсуждения эссе однокурсников: задавал вопросы, предлагал улучшения, давал конструктивную обратную связь.	0–2	2
Итого максимум			7

Оценочное средство 3: Зачёт (демонстрация активного эссе)

№	Критерий	Показатели	Баллы	Макс.
1	Знание программного материала	Знание программного материала и структуры дисциплины, умение показать свои знания при демонстрации активного эссе. Свободная ориентация в содержании эссе, способность ответить на вопросы по материалу.	0–2	2
2	Владение методологией дисциплины в цифровой среде	Демонстрация уверенного владения инструментами цифровой среды, использованными в эссе: объяснение выбора конкретных средств (диаграммы, код, модели, запросы), умение модифицировать элементы эссе в реальном времени.	0–2	2
3	Презентация и ответы на вопросы	Логичность изложения, ясность речи, способность аргументировать свои решения, готовность к дискуссии.	0–1	1
Итого максимум			5

Зачёт выставляется при суммарном балле не менее 3 из 5.

Итоговая оценка по дисциплине

Компонент	Максимум	Вес
Активное эссе	30	60%
История вклада	7	20%
Зачёт	5	20%
Итого	42	100%

Аноним

Поиск

Методы обработки больших данных (syllabus)

Пространства имён

Ещё

Действия на странице

Описание курса

Последовательность курса

Модуль 1 Социосемантические системы и данные

Модуль 2. Социосемантические графы Digida

Модуль 3. NetLogo как генератор экспериментальных данных

Модуль 4. Внешние данные, External Data и Lua + Scribunto

Модуль 5. Очистка, MapReduce на Java и анализ в R

Модуль 6. Active Essay и коллективное социосемантическое исследование

Примеры активных эссе

Общие критерии оценивания активного эссе

Оценочное средство 1: Активное эссе (страница SMW)

Оценочное средство 2: История вклада участника

Оценочное средство 3: Зачёт (демонстрация активного эссе)

Итоговая оценка по дисциплине

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Методы обработки больших данных (syllabus)

Описание курса

Последовательность курса

Модуль 1 Социосемантические системы и данные

Модуль 2. Социосемантические графы Digida

Модуль 3. NetLogo как генератор экспериментальных данных

Модуль 4. Внешние данные, External Data и Lua + Scribunto

Модуль 5. Очистка, MapReduce на Java и анализ в R

Модуль 6. Active Essay и коллективное социосемантическое исследование

Примеры активных эссе

Общие критерии оценивания активного эссе

Оценочное средство 1: Активное эссе (страница SMW)

Оценочное средство 2: История вклада участника

Оценочное средство 3: Зачёт (демонстрация активного эссе)

Итоговая оценка по дисциплине

Навигация

Вики-инструменты

Инструменты для страниц

Категории