Методы анализа больших данных (Syllabus) 2025
Материал из Поле цифровой дидактики
| Планируемые результаты обучения (Знать, Уметь, Владеть) |
|
|---|---|
| Содержание разделов курса |
|
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | R, RAWGraphs, Mermaid, Semantic MediaWiki |
| Книги, на которых основывается учебный курс |
- Курс в ЛМС - https://lms.mgpu.ru/course/11990
Введение в методы анализа больших данных
- Понятие «большие данные» в современном образовании и лингвистике.
- Примеры сетевых сообществ, как источников больших данных
- Сетевые образовательные сообщества: анализ больших данных
- Примеры образовательных и языковых проектов, в которых анализ больших данных дает практическую пользу (от изучения частоты слов до оценки вовлечённости сообществ).
AO3, Academia.edu, Amazon Turk, CloudWorks, ClubHouse, CoMSES, CyberForum.ru, Eyewire, FaceBook, FoldIt сообщество, GUTS, GitHub, Glitch, GlobalLab, Habr, Hugging Face, ISTE Commons, Kaggle, LangOER, LeMill, MOOSE Crossing, Maximus, Media MOO, Modeling Commons, MyExperiment, Principia Cybernetica Web, Quora, Roblox, Scifabric, Scratch&mit, ScratchEd, Second Life, Shinyappsio, Stack OverFlow, Telegram group, Thinkquest, Twitter, WikiHow, Wikipedia, YouTube, Zooniverse, Инфоурок, Луркоморье, Педсовет, Репозиторий OpenGMS, Сitizencyberlab, СПО Спецназ, Совет Студентов и Аспирантов, Сообщество BlocksCAD, Сообщество Classroom 2.0… следующие результаты
- Знакомство с платформой digida.mgpu.ru — основные функции, типовые задачи курса и обзор возможностей интеграции данных с вики-проектов.
Получение и подготовка больших данных
- Где брать большие данные: обзор открытых вики-источников (Wikipedia, Wiktionary, Wikisource, библиометрические базы научных публикаций и патентов Lens, ACM Digital Library, OpenAlex).
- Как работать с выгрузками данных/простыми API-интерфейсами — на уровне скачивания файлов и копирования готовых наборов.
- Этапы подготовки: выбор темы (например, статьи по лингвистике, по английской грамматике или информатике), очистка от лишних фрагментов, преобразование для анализа (например, выбор только текстовых блоков статей).
- Практика: пошаговые инструкции по сбору небольшого корпуса статей для индивидуальных и групповых проектов.
Аналитическая обработка и визуализация данных
- Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей с помощью онлайн-инструментов или готовых шаблонов.
- Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий.
- Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - PlantUML, Mermaid, Graphviz
- Построение графа сотрудничества между авторами в сфере информатики и лингвистики - VOSviewer
- Кластеризация тем публикаций, определение наиболее цитируемых работ и авторов.
- Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания.
Исследование структур и сетей
- Введение в понятие сетей и связей в текстовых данных (например, графы ссылок между статьями, сети авторов).
- Пример: исследование структуры ссылок между статьями по теме «Английская грамматика» и «Информатика».
- Визуализация сетей с помощью простых интерактивных сервисов (от карт связей между понятиями до анализа авторских сообществ).
- Как результаты сетевого анализа могут помочь в создании учебных материалов или при планировании совместных проектов с коллегами.
Машинное обучение для анализа больших данных
- Объяснение сути машинного обучения через примеры: автоматическая классификация текстов, обнаружение новых тем, прогнозирование интересов учащихся.
- Разбор базовых алгоритмов на интуитивном уровне (кластеризация, поиск схожих статей) — без технических деталей, с использованием веб-приложений и шаблонов digida.mgpu.ru.
- Применение машинного обучения к корпусу статей: как получить группы тем, понять структуру интересов авторов или пользователей.
- Практика: самостоятельное мини-исследование, итоговый отчёт — анализ и обсуждение результатов для совместного развития преподавательского сообщества.
