Методы анализа больших данных (Syllabus) 2025

Материал из Поле цифровой дидактики



Планируемые результаты обучения (Знать, Уметь, Владеть)
  • Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты), адаптировать их для учебных задач.
  • Освоить основные подходы к анализу, обработке и визуализации больших данных без сложных программных реализаций.
  • Уметь выявлять структуры, отношения и тренды в образовательных и языковых данных, используя доступные онлайн-инструменты и простые скрипты.
  • Получить базовое представление о применении машинного обучения для анализа текстовых и структурированных данных.
  • Разработать свои проекты по анализу цифровых образовательных ресурсов, применимых в школьной практике и во внеурочной деятельности.
Содержание разделов курса
  1. Введение в методы анализа больших данных
  2. Получение и подготовка больших данных
  3. Аналитическая обработка и визуализация данных
  4. Исследование структур и сетей
  5. Машинное обучение для анализа больших данных
Видео запись
Среды и средства, которые поддерживают учебный курс R, RAWGraphs, Mermaid, Semantic MediaWiki
Книги, на которых основывается учебный курс


Введение в методы анализа больших данных

AO3, Academia.edu, Amazon Turk, CloudWorks, ClubHouse, CoMSES, CyberForum.ru, Eyewire, FaceBook, FoldIt сообщество, GUTS, GitHub, Glitch, GlobalLab, Habr, Hugging Face, ISTE Commons, Kaggle, LangOER, LeMill, MOOSE Crossing, Maximus, Media MOO, Modeling Commons, MyExperiment, Principia Cybernetica Web, Quora, Roblox, Scifabric, Scratch&mit, ScratchEd, Second Life, Shinyappsio, Stack OverFlow, Telegram group, Thinkquest, Twitter, WikiHow, Wikipedia, YouTube, Zooniverse, Инфоурок, Луркоморье, Педсовет, Репозиторий OpenGMS, Сitizencyberlab, СПО Спецназ, Совет Студентов и Аспирантов, Сообщество BlocksCAD, Сообщество Classroom 2.0… следующие результаты

  • Знакомство с платформой digida.mgpu.ru — основные функции, типовые задачи курса и обзор возможностей интеграции данных с вики-проектов.

Получение и подготовка больших данных

  • Где брать большие данные: обзор открытых вики-источников (Wikipedia, Wiktionary, Wikisource, библиометрические базы научных публикаций и патентов Lens, ACM Digital Library, OpenAlex).
  • Как работать с выгрузками данных/простыми API-интерфейсами — на уровне скачивания файлов и копирования готовых наборов.
  • Этапы подготовки: выбор темы (например, статьи по лингвистике, по английской грамматике или информатике), очистка от лишних фрагментов, преобразование для анализа (например, выбор только текстовых блоков статей).
  • Практика: пошаговые инструкции по сбору небольшого корпуса статей для индивидуальных и групповых проектов.

Аналитическая обработка и визуализация данных

  • Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей с помощью онлайн-инструментов или готовых шаблонов.
  • Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий.
  • Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - PlantUML, Mermaid, Graphviz
  • Построение графа сотрудничества между авторами в сфере информатики и лингвистики - VOSviewer
  • Кластеризация тем публикаций, определение наиболее цитируемых работ и авторов.
  • Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания.

Исследование структур и сетей

  • Введение в понятие сетей и связей в текстовых данных (например, графы ссылок между статьями, сети авторов).
  • Пример: исследование структуры ссылок между статьями по теме «Английская грамматика» и «Информатика».
  • Визуализация сетей с помощью простых интерактивных сервисов (от карт связей между понятиями до анализа авторских сообществ).
  • Как результаты сетевого анализа могут помочь в создании учебных материалов или при планировании совместных проектов с коллегами.

Машинное обучение для анализа больших данных

  • Объяснение сути машинного обучения через примеры: автоматическая классификация текстов, обнаружение новых тем, прогнозирование интересов учащихся.
  • Разбор базовых алгоритмов на интуитивном уровне (кластеризация, поиск схожих статей) — без технических деталей, с использованием веб-приложений и шаблонов digida.mgpu.ru.
  • Применение машинного обучения к корпусу статей: как получить группы тем, понять структуру интересов авторов или пользователей.
  • Практика: самостоятельное мини-исследование, итоговый отчёт — анализ и обсуждение результатов для совместного развития преподавательского сообщества.