Методы анализа больших данных (Syllabus) 2025
Материал из Поле цифровой дидактики
| Планируемые результаты обучения (Знать, Уметь, Владеть) |
|
|---|---|
| Содержание разделов курса |
|
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | R, RAWGraphs, Mermaid, Semantic MediaWiki |
| Книги, на которых основывается учебный курс |
Введение в методы анализа больших данных
- Понятие «большие данные» в современном образовании и лингвистике.
- Примеры образовательных и языковых проектов, в которых анализ больших данных дает практическую пользу (от изучения частоты слов до оценки вовлечённости сообществ).
- Знакомство с платформой digida.mgpu.ru — основные функции, типовые задачи курса и обзор возможностей интеграции данных с вики-проектов.
Получение и подготовка больших данных
- Где брать большие данные: обзор открытых вики-источников (Wikipedia, Wiktionary, Wikisource, локальные школьные вики).
- Как работать с выгрузками данных/простыми API-интерфейсами — на уровне скачивания файлов и копирования готовых наборов.
- Этапы подготовки: выбор темы (например, статьи по лингвистике, по английской грамматике или информатике), очистка от лишних фрагментов, преобразование для анализа (например, выбор только текстовых блоков статей).
- Практика: пошаговые инструкции по сбору небольшого корпуса статей для индивидуальных и групповых учебных проектов.
Аналитическая обработка и визуализация данных
- Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей — без написания программ, с помощью онлайн-инструментов или готовых шаблонов.
- Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий.
- Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных конструкторов платформы digida.mgpu.ru.
- Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания.
Исследование структур и сетей
- Введение в понятие сетей и связей в текстовых данных (например, графы ссылок между статьями, сети авторов).
- Пример: исследование структуры ссылок между статьями по теме «Английская грамматика» и «Информатика».
- Визуализация сетей с помощью простых интерактивных сервисов (от карт связей между понятиями до анализа авторских сообществ).
- Как результаты сетевого анализа могут помочь в создании учебных материалов или при планировании совместных проектов с коллегами.
Машинное обучение для анализа больших данных
- Объяснение сути машинного обучения через примеры: автоматическая классификация текстов, обнаружение новых тем, прогнозирование интересов учащихся.
- Разбор базовых алгоритмов на интуитивном уровне (кластеризация, поиск схожих статей) — без технических деталей, с использованием веб-приложений и шаблонов digida.mgpu.ru.
- Применение машинного обучения к корпусу статей: как получить группы тем, понять структуру интересов авторов или пользователей.
- Практика: самостоятельное мини-исследование, итоговый отчёт — анализ и обсуждение результатов для совместного развития преподавательского сообщества.
