Обработка больших данных (syllabus)

Материал из Поле цифровой дидактики



Планируемые результаты обучения (Знать, Уметь, Владеть) Готовность студентов к профессиональной деятельности, связанной с обработкой и анализом больших данных, в педагогической сфере.
Знать
  1. основные понятиям и термины в области обработки больших данных
  2. методы сбора, выращивания, хранения и обработки больших данных.
  3. методов анализа больших данных
  4. инструменты визуализации данных для представления и интерпретации результатов анализа
Уметь
  1. Собирать данные с полей учебной и исследовательской деятельности
  2. Выращивать данные в искусственных средах. Ставить эксперименты с данными
  3. Обрабатывать данные
Содержание разделов курса
  1. Данные - основные понятия
  2. Источники данных (где искать)
    1. Примеры образовательных датасетов
  3. Инструменты анализа и визуализации данных
  4. Среды выращивания данных
Видео запись
Среды и средства, которые поддерживают учебный курс R, RStudio, NetLogo, Snap!, Google Data Studio, Shiny, Python, CODAP
Книги, на которых основывается учебный курс R for Data Science, Mastering Shiny: Build Interactive Apps, Tidy Modeling with R

Основные понятия

Большие данные, База данных, База знаний, Веб-скрепинг, Датасет, Озеро данных, Агентное моделирование, Гигантская компонента

Источники данных

Инструменты анализа и визуализации данных

 DescriptionAffordances
BiblioshinyПакет R для анализа библиометрических данных. Запускается как веб-страница из R - R-studio:
  • library(bibliometrix)
  • biblioshiny()
Проводить библиометрический анализ с использованием возможностей языка R, но без необходимости писать текст команд
CODAPИнструмент визуализации данных проведения статистических исследований на основе данных. Данные - есть готовые наборы данных, либо можно получить данные из игр и моделей.
  • Готовые данные встраиваются в Snap!
  • Источником данных могут быть модели NetLogo
  • Пользователь может загрузить набор данных из набора данных или просто перетащить их мышкой из своей таблицы в таблицу CODAP.
  • Средство побуждает участника самостоятельно экспериментировать с разными типами данных
  • Есть готовые примеры по различным темам обучения
  • Видоизменённые данные всегда можно сохранить
  • CODAP APIAPI for CODAP
    ChronovizChronoViz is a tool to aid visualization and analysis of multimodal sets of time-coded information, with a focus on the analysis of video in combination with other data sources.Анализ мультимодальной информации - видео + другие источники In comparison to other data visualization tools, ChronoViz is unique in its focus on time-coded multimodal data and its ability to integrate with various data sources. It offers a range of visualization techniques and navigation mechanisms, making it a powerful tool for researchers working with time-based data.
    Frequency Distribution Analysis LibraryБиблиотека анализа распределения значений внутри данных. Библиотека Snap!
    • 120px-Fda_snap.png
    Расчёт и и построение графиков распределения той или иной величины на экране - функции группировки и сортировки значений.
    Jamovi
    KeplerOpen Source инструмента для визуализации и анализа больших наборов гео-данных.
  • 120px-Kepler_cities.png
  • На сегодняшний день Kepler.gl поддерживает 3 формата исходных данных: geojson, json и csv. Сохранив данные в одном указанных форматов просто загружаем их в приложение.
    MathematicaMathematica — проприетарная система компьютерной алгебры, широко используемая для научных, инженерных, математических расчётов. Разработана в 1988 году Стивеном Вольфрамом, дальнейшим развитием системы занята основанная им совместно с Теодором Греем компания Wolfram Research.Оснащена как аналитическими возможностями, так и обеспечивает численные расчёты; результаты выводятся как в алфавитно-цифровом виде, так и в форме графиков.
    MediaWiki APIДвижок MediaWiki имеет свой API, который является веб-службой, обеспечивающей доступ к многим функциям вики. Благодаря этому инструменту мы можем собирать информацию с любой из внешних вики площадок.аутентификация, операции над страницами, поиск по вики и множество других операций. MediaWiki API может обрабатывать запросы через обработчик(скрипт) api.php, который написан на языке программирования PHP. Обработчик принимает запросы через отправку HTTP запросов на адрес(url) обработчика.
  • Для Википедии url обработчика находится по адресу https://ru.wikipedia.org/w/api.php
  • Для Digida -
  • Network WorkbenchNetwork Workbench: A Large-Scale Network Analysis, Modeling and Visualization Toolkit for Biomedical, Social Science and Physics Research.This project will design, evaluate, and operate a unique distributed, shared resources environment for large-scale network analysis, modeling, and visualization, named Network Workbench (NWB).
    PostmanPostman — это сервис для создания, тестирования, документирования, публикации и обслуживания API.Сервис позволяет создавать коллекции запросов к любому API, применять к ним разные окружения, настраивать мок-серверы, писать автотесты на JavaScript, анализировать и визуализировать результаты запросов.
    1. Составлять и отправлять запросы;
    2. Сохранять запросы в папки и коллекции;
    3. Параметризовать запросы;
    4. Добавлять к вызову API контрольные точки;
    5. Создавать разные окружения для одних и тех же запросов;
    6. Запускать коллекции с помощью Collection Runner и использовать их как автоматизированные тесты.
    Scratch APIИнструмент доступа к данным сообщества ScratchПолучать информацию о действиях отдельных участников, активности в студиях, активности по отдельным проектам
    ShinyItemAnalysisR пакет для он-лайн психометрического анализа образовательных тестовможно использовать собственные наборы данных или использовать готовые наборы
    TableauTableau - BI-система, предназначенная для анализа и визуализации данных. Интерфейс разработан таким образом, чтобы было несложно разобраться, даже если вы никогда раньше не создавали дашборды. Позволяет создавать интерактивные и обновляемые в режиме реального времени панели, в том числе – на основе совмещенных данных.Плюсы Tableau:

    поддерживает более 30 типов данных; один из самых простых для освоения инструментов бизнес-аналитики; много обучающей информации в текстовом и видеоформате;

    развивается и регулярно обновляется.
    VOSviewerVOSviewer — это программа для построения и визуализации библиометрических сетей.
    1. Позволяет оценивать Co-authorship, Co-occurrence, Citation, Bibliographic coupling, Co-citation and themes.
    2. Работает с различными форматами данных - прежде всего библиографические - BIB, RIS
    3. Может использоваться для сетевого анализа на основе небиблиграфических данных
    Web ScraperНадстройка для Chrome. Инструмент для извлечения данных из веб-страницСэкономить время на ручном поиске и однотипных данных (текста, ссылок, данных из таблиц, адресов электронной почты и тд) и выгрузить итоговый результат в CSV
    Песочница MediaWiki APIИнструмент позволяет подбирать параметры для запроса к MediaWiki APIРазные действия в запросе:
    • query
    • ask
    • feedcontributions
    ЯклассОбразовательный порталОрганизация дистанционных занятий, размещение учебных материалов, посещение вебинаров, ведение оценочной деятельности
    • библиотек Python для обработки и визуализации данных, таких как Pandas, NumPy, Matplotlib, Seaborn и Plotly

    Выращивание данных при помощи многоагентных моделей

    120px-Piage_Vyg.png


    Обработка данных

    Khurmanenok result pic.png