Методы анализа больших данных (Syllabus) 2025: различия между версиями
Материал из Поле цифровой дидактики
Patarakin (обсуждение | вклад) |
Patarakin (обсуждение | вклад) |
||
| Строка 27: | Строка 27: | ||
* Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей с помощью онлайн-инструментов или готовых шаблонов. | * Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей с помощью онлайн-инструментов или готовых шаблонов. | ||
* Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий. | * Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий. | ||
* Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - [[PlantUML]], [[Mermaid]], [[ | * Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - [[PlantUML]], [[Mermaid]], [[Graphviz]] | ||
* Построение графа сотрудничества между авторами в сфере информатики и лингвистики - [[ | * Построение графа сотрудничества между авторами в сфере информатики и лингвистики - [[VOSviewer]] | ||
* Кластеризация тем публикаций, определение наиболее цитируемых работ и авторов. | * Кластеризация тем публикаций, определение наиболее цитируемых работ и авторов. | ||
* Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания. | * Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания. | ||
Версия от 12:44, 10 сентября 2025
| Планируемые результаты обучения (Знать, Уметь, Владеть) |
|
|---|---|
| Содержание разделов курса |
|
| Видео запись | |
| Среды и средства, которые поддерживают учебный курс | R, RAWGraphs, Mermaid, Semantic MediaWiki |
| Книги, на которых основывается учебный курс |
Введение в методы анализа больших данных
- Понятие «большие данные» в современном образовании и лингвистике.
- Примеры образовательных и языковых проектов, в которых анализ больших данных дает практическую пользу (от изучения частоты слов до оценки вовлечённости сообществ).
- Знакомство с платформой digida.mgpu.ru — основные функции, типовые задачи курса и обзор возможностей интеграции данных с вики-проектов.
Получение и подготовка больших данных
- Где брать большие данные: обзор открытых вики-источников (Wikipedia, Wiktionary, Wikisource, библиометрические базы научных публикаций и патентов Lens, ACM Digital Library, OpenAlex).
- Как работать с выгрузками данных/простыми API-интерфейсами — на уровне скачивания файлов и копирования готовых наборов.
- Этапы подготовки: выбор темы (например, статьи по лингвистике, по английской грамматике или информатике), очистка от лишних фрагментов, преобразование для анализа (например, выбор только текстовых блоков статей).
- Практика: пошаговые инструкции по сбору небольшого корпуса статей для индивидуальных и групповых проектов.
Аналитическая обработка и визуализация данных
- Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей с помощью онлайн-инструментов или готовых шаблонов.
- Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий.
- Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - PlantUML, Mermaid, Graphviz
- Построение графа сотрудничества между авторами в сфере информатики и лингвистики - VOSviewer
- Кластеризация тем публикаций, определение наиболее цитируемых работ и авторов.
- Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания.
Исследование структур и сетей
- Введение в понятие сетей и связей в текстовых данных (например, графы ссылок между статьями, сети авторов).
- Пример: исследование структуры ссылок между статьями по теме «Английская грамматика» и «Информатика».
- Визуализация сетей с помощью простых интерактивных сервисов (от карт связей между понятиями до анализа авторских сообществ).
- Как результаты сетевого анализа могут помочь в создании учебных материалов или при планировании совместных проектов с коллегами.
Машинное обучение для анализа больших данных
- Объяснение сути машинного обучения через примеры: автоматическая классификация текстов, обнаружение новых тем, прогнозирование интересов учащихся.
- Разбор базовых алгоритмов на интуитивном уровне (кластеризация, поиск схожих статей) — без технических деталей, с использованием веб-приложений и шаблонов digida.mgpu.ru.
- Применение машинного обучения к корпусу статей: как получить группы тем, понять структуру интересов авторов или пользователей.
- Практика: самостоятельное мини-исследование, итоговый отчёт — анализ и обсуждение результатов для совместного развития преподавательского сообщества.
