Методы анализа больших данных (Syllabus) 2025

Материал из Поле цифровой дидактики
Версия от 12:34, 10 сентября 2025; Patarakin (обсуждение | вклад) (Новая страница: «{{Curriculum |Learning_outcomes=* Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты), адаптировать их для учебных задач. * Освоить основные подходы к анализу, обработке и визуализации больших данных без сложных прогр...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)



Планируемые результаты обучения (Знать, Уметь, Владеть)
  • Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты), адаптировать их для учебных задач.
  • Освоить основные подходы к анализу, обработке и визуализации больших данных без сложных программных реализаций.
  • Уметь выявлять структуры, отношения и тренды в образовательных и языковых данных, используя доступные онлайн-инструменты и простые скрипты.
  • Получить базовое представление о применении машинного обучения для анализа текстовых и структурированных данных.
  • Разработать свои проекты по анализу цифровых образовательных ресурсов, применимых в школьной практике и во внеурочной деятельности.
Содержание разделов курса
  1. Введение в методы анализа больших данных
  2. Получение и подготовка больших данных
  3. Аналитическая обработка и визуализация данных
  4. Исследование структур и сетей
  5. Машинное обучение для анализа больших данных
Видео запись
Среды и средства, которые поддерживают учебный курс R, RAWGraphs, Mermaid, Semantic MediaWiki
Книги, на которых основывается учебный курс


Введение в методы анализа больших данных

  • Понятие «большие данные» в современном образовании и лингвистике.
  • Примеры образовательных и языковых проектов, в которых анализ больших данных дает практическую пользу (от изучения частоты слов до оценки вовлечённости сообществ).
  • Знакомство с платформой digida.mgpu.ru — основные функции, типовые задачи курса и обзор возможностей интеграции данных с вики-проектов.

Получение и подготовка больших данных

  • Где брать большие данные: обзор открытых вики-источников (Wikipedia, Wiktionary, Wikisource, локальные школьные вики).
  • Как работать с выгрузками данных/простыми API-интерфейсами — на уровне скачивания файлов и копирования готовых наборов.
  • Этапы подготовки: выбор темы (например, статьи по лингвистике, по английской грамматике или информатике), очистка от лишних фрагментов, преобразование для анализа (например, выбор только текстовых блоков статей).
  • Практика: пошаговые инструкции по сбору небольшого корпуса статей для индивидуальных и групповых учебных проектов.


Аналитическая обработка и визуализация данных

  • Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей — без написания программ, с помощью онлайн-инструментов или готовых шаблонов.
  • Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий.
  • Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных конструкторов платформы digida.mgpu.ru.
  • Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания.

Исследование структур и сетей

  • Введение в понятие сетей и связей в текстовых данных (например, графы ссылок между статьями, сети авторов).
  • Пример: исследование структуры ссылок между статьями по теме «Английская грамматика» и «Информатика».
  • Визуализация сетей с помощью простых интерактивных сервисов (от карт связей между понятиями до анализа авторских сообществ).
  • Как результаты сетевого анализа могут помочь в создании учебных материалов или при планировании совместных проектов с коллегами.

Машинное обучение для анализа больших данных

  • Объяснение сути машинного обучения через примеры: автоматическая классификация текстов, обнаружение новых тем, прогнозирование интересов учащихся.
  • Разбор базовых алгоритмов на интуитивном уровне (кластеризация, поиск схожих статей) — без технических деталей, с использованием веб-приложений и шаблонов digida.mgpu.ru.
  • Применение машинного обучения к корпусу статей: как получить группы тем, понять структуру интересов авторов или пользователей.
  • Практика: самостоятельное мини-исследование, итоговый отчёт — анализ и обсуждение результатов для совместного развития преподавательского сообщества.