Методы анализа больших данных (Syllabus) 2025: различия между версиями

Версия от 12:44, 10 сентября 2025

Планируемые результаты обучения (Знать, Уметь, Владеть)	Научиться находить и собирать большие наборы данных из открытых источников (Википедия, вики-проекты), адаптировать их для учебных задач. Освоить основные подходы к анализу, обработке и визуализации больших данных без сложных программных реализаций. Уметь выявлять структуры, отношения и тренды в образовательных и языковых данных, используя доступные онлайн-инструменты и простые скрипты. Получить базовое представление о применении машинного обучения для анализа текстовых и структурированных данных. Разработать свои проекты по анализу цифровых образовательных ресурсов, применимых в школьной практике и во внеурочной деятельности.
Содержание разделов курса	Введение в методы анализа больших данных Получение и подготовка больших данных Аналитическая обработка и визуализация данных Исследование структур и сетей Машинное обучение для анализа больших данных
Видео запись
Среды и средства, которые поддерживают учебный курс	R, RAWGraphs, Mermaid, Semantic MediaWiki
Книги, на которых основывается учебный курс

Введение в методы анализа больших данных

Понятие «большие данные» в современном образовании и лингвистике.
Примеры образовательных и языковых проектов, в которых анализ больших данных дает практическую пользу (от изучения частоты слов до оценки вовлечённости сообществ).
Знакомство с платформой digida.mgpu.ru — основные функции, типовые задачи курса и обзор возможностей интеграции данных с вики-проектов.

Получение и подготовка больших данных

Где брать большие данные: обзор открытых вики-источников (Wikipedia, Wiktionary, Wikisource, библиометрические базы научных публикаций и патентов Lens, ACM Digital Library, OpenAlex).
Как работать с выгрузками данных/простыми API-интерфейсами — на уровне скачивания файлов и копирования готовых наборов.
Этапы подготовки: выбор темы (например, статьи по лингвистике, по английской грамматике или информатике), очистка от лишних фрагментов, преобразование для анализа (например, выбор только текстовых блоков статей).
Практика: пошаговые инструкции по сбору небольшого корпуса статей для индивидуальных и групповых проектов.

Аналитическая обработка и визуализация данных

Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей с помощью онлайн-инструментов или готовых шаблонов.
Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий.
Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - PlantUML, Mermaid, Graphviz
Построение графа сотрудничества между авторами в сфере информатики и лингвистики - VOSviewer
Кластеризация тем публикаций, определение наиболее цитируемых работ и авторов.
Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания.

Исследование структур и сетей

Введение в понятие сетей и связей в текстовых данных (например, графы ссылок между статьями, сети авторов).
Пример: исследование структуры ссылок между статьями по теме «Английская грамматика» и «Информатика».
Визуализация сетей с помощью простых интерактивных сервисов (от карт связей между понятиями до анализа авторских сообществ).
Как результаты сетевого анализа могут помочь в создании учебных материалов или при планировании совместных проектов с коллегами.

Машинное обучение для анализа больших данных

Объяснение сути машинного обучения через примеры: автоматическая классификация текстов, обнаружение новых тем, прогнозирование интересов учащихся.
Разбор базовых алгоритмов на интуитивном уровне (кластеризация, поиск схожих статей) — без технических деталей, с использованием веб-приложений и шаблонов digida.mgpu.ru.
Применение машинного обучения к корпусу статей: как получить группы тем, понять структуру интересов авторов или пользователей.
Практика: самостоятельное мини-исследование, итоговый отчёт — анализ и обсуждение результатов для совместного развития преподавательского сообщества.

@@ Строка 27: / Строка 27: @@
 * Простые методы выявления частотных слов, популярных тем и трендов в выбранном наборе статей с помощью онлайн-инструментов или готовых шаблонов.
 * Сравнение распространённых тем на русском и английском языке, обнаружение сходств и различий.
-* Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - [[PlantUML]], [[Mermaid]], [[GraphViz]]
+* Создание диаграмм, таблиц, облаков слов с помощью бесплатных веб-сервисов или визуальных инструментов платформы digida.mgpu.ru - [[PlantUML]], [[Mermaid]], [[Graphviz]]
-* Построение графа сотрудничества между авторами в сфере информатики и лингвистики - [[VOSviwer]]
+* Построение графа сотрудничества между авторами в сфере информатики и лингвистики - [[VOSviewer]]
 * Кластеризация тем публикаций, определение наиболее цитируемых работ и авторов.
 * Совместные мини-проекты: анализ, почему определённые темы чаще появляются в статьях и как эта информация полезна для преподавания.

Аноним

Поиск

Методы анализа больших данных (Syllabus) 2025: различия между версиями

Пространства имён

Ещё

Действия на странице

Версия от 12:44, 10 сентября 2025

Содержание

Введение в методы анализа больших данных

Получение и подготовка больших данных

Аналитическая обработка и визуализация данных

Исследование структур и сетей

Машинное обучение для анализа больших данных

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Методы анализа больших данных (Syllabus) 2025: различия между версиями

Версия от 12:44, 10 сентября 2025

Введение в методы анализа больших данных

Получение и подготовка больших данных

Аналитическая обработка и визуализация данных

Исследование структур и сетей

Машинное обучение для анализа больших данных

Навигация

Вики-инструменты

Инструменты для страниц

Категории