Обработка больших данных (syllabus)

Материал из Поле цифровой дидактики



Планируемые результаты обучения (Знать, Уметь, Владеть) Готовность студентов к профессиональной деятельности, связанной с обработкой и анализом больших данных, в педагогической сфере.
Знать
  1. основные понятиям и термины в области обработки больших данных
  2. методы сбора, выращивания, хранения и обработки больших данных.
  3. методов анализа больших данных
  4. инструменты визуализации данных для представления и интерпретации результатов анализа
Уметь
  1. Собирать данные с полей учебной и исследовательской деятельности
  2. Выращивать данные в искусственных средах. Ставить эксперименты с данными
  3. Обрабатывать данные
Содержание разделов курса
  1. Данные - основные понятия
  2. Источники данных (где искать)
    1. Примеры образовательных датасетов
  3. Инструменты анализа и визуализации данных
  4. Среды выращивания данных
Видео запись
Среды и средства, которые поддерживают учебный курс R, RStudio, NetLogo, Snap!, Google Data Studio, Shiny, Python, CODAP
Книги, на которых основывается учебный курс R for Data Science, Mastering Shiny: Build Interactive Apps, Tidy Modeling with R

Основные понятия

Большие данные, База данных, База знаний, Веб-скрепинг, Датасет, Озеро данных, Агентное моделирование, Гигантская компонента

Источники данных

Инструменты анализа и визуализации данных

 DescriptionAffordances
BiblioshinyПакет R для анализа библиометрических данных. Запускается как веб-страница из R - R-studio:
  • library(bibliometrix)
  • biblioshiny()
Проводить библиометрический анализ с использованием возможностей языка R, но без необходимости писать текст команд
CODAPИнструмент проведения статистических исследований на основе данных. Данные - есть готовые наборы данных, либо можно получить данные из игр и моделейПользователь может загрузить набор данных из набора данных или просто перетащить их мышкой из своей таблицы в таблицу CODAP.
  • Средство побуждает участника самостоятельно экспериментировать с разными типами данных
  • Есть готовые примеры по различным темам обучения
  • Видоизменённые данные всегда можно сохранить
  • CODAP APIAPI for CODAP
    ChronovizChronoViz is a tool to aid visualization and analysis of multimodal sets of time-coded information, with a focus on the analysis of video in combination with other data sources.Анализ мультимодальной информации - видео + другие источники In comparison to other data visualization tools, ChronoViz is unique in its focus on time-coded multimodal data and its ability to integrate with various data sources. It offers a range of visualization techniques and navigation mechanisms, making it a powerful tool for researchers working with time-based data.
    Frequency Distribution Analysis LibraryБиблиотека анализа распределения значений внутри данных. Библиотека Snap!
    • 120px-Fda_snap.png
    Расчёт и и построение графиков распределения той или иной величины на экране - функции группировки и сортировки значений.
    KeplerOpen Source инструмента для визуализации и анализа больших наборов гео-данных.
  • 120px-Kepler_cities.png
  • На сегодняшний день Kepler.gl поддерживает 3 формата исходных данных: geojson, json и csv. Сохранив данные в одном указанных форматов просто загружаем их в приложение.
    MathematicaMathematica — проприетарная система компьютерной алгебры, широко используемая для научных, инженерных, математических расчётов. Разработана в 1988 году Стивеном Вольфрамом, дальнейшим развитием системы занята основанная им совместно с Теодором Греем компания Wolfram Research.Оснащена как аналитическими возможностями, так и обеспечивает численные расчёты; результаты выводятся как в алфавитно-цифровом виде, так и в форме графиков.
    MediaWiki APIДвижок MediaWiki имеет свой API, который является веб-службой, обеспечивающей доступ к многим функциям вики.аутентификация, операции над страницами, поиск по вики и множество других операций. MediaWiki API может обрабатывать запросы через обработчик(скрипт) api.php, который написан на языке программирования PHP. Обработчик принимает запросы через отправку HTTP запросов на адрес(url) обработчика.
  • Для Википедии url обработчика находится по адресу https://ru.wikipedia.org/w/api.php
  • Для Digida -
  • PostmanPostman — это сервис для создания, тестирования, документирования, публикации и обслуживания API.Сервис позволяет создавать коллекции запросов к любому API, применять к ним разные окружения, настраивать мок-серверы, писать автотесты на JavaScript, анализировать и визуализировать результаты запросов.
    1. Составлять и отправлять запросы;
    2. Сохранять запросы в папки и коллекции;
    3. Параметризовать запросы;
    4. Добавлять к вызову API контрольные точки;
    5. Создавать разные окружения для одних и тех же запросов;
    6. Запускать коллекции с помощью Collection Runner и использовать их как автоматизированные тесты.
    Scratch APIИнструмент доступа к данным сообщества ScratchПолучать информацию о действиях отдельных участников, активности в студиях, активности по отдельным проектам
    ShinyItemAnalysisR пакет для он-лайн психометрического анализа образовательных тестовможно использовать собственные наборы данных или использовать готовые наборы
    TableauTableau - BI-система, предназначенная для анализа и визуализации данных. Интерфейс разработан таким образом, чтобы было несложно разобраться, даже если вы никогда раньше не создавали дашборды. Позволяет создавать интерактивные и обновляемые в режиме реального времени панели, в том числе – на основе совмещенных данных.Плюсы Tableau:

    поддерживает более 30 типов данных; один из самых простых для освоения инструментов бизнес-аналитики; много обучающей информации в текстовом и видеоформате;

    развивается и регулярно обновляется.
    VOSviewerVOSviewer — это программа для построения и визуализации библиометрических сетей.
    1. Позволяет оценивать Co-authorship, Co-occurrence, Citation, Bibliographic coupling, Co-citation and themes.
    2. Работает с различными форматами данных - прежде всего библиографические - BIB, RIS
    3. Может использоваться для сетевого анализа на основе небиблиграфических данных
    Web ScraperНадстройка для Chrome. Инструмент для извлечения данных из веб-страницСэкономить время на ручном поиске и однотипных данных (текста, ссылок, данных из таблиц, адресов электронной почты и тд) и выгрузить итоговый результат в CSV
    Песочница MediaWiki APIИнструмент позволяет подбирать параметры для запроса к MediaWiki APIРазные действия в запросе:
    • query
    • ask
    • feedcontributions
    ЯклассОбразовательный порталОрганизация дистанционных занятий, размещение учебных материалов, посещение вебинаров, ведение оценочной деятельности
    • библиотек Python для обработки и визуализации данных, таких как Pandas, NumPy, Matplotlib, Seaborn и Plotly

    Выращивание данных при помощи многоагентных моделей

    120px-Piage_Vyg.png

     InventorDescription
    Agent-Based and Individual-Based Modeling: A Practical IntroductionRailsback
    Grimm
    Подробное руководство по дизайну экспериментов в среде Netlogo с использованием BehaviorSpace и использованием ODD принципов
    • 120px-Behavior_space_flocking.png
    An Introduction to Agent-Based Modeling: Modeling Natural, Social, and Engineered Complex Systems with NetLogoWilensky
    Rand
    Введение в моделирование систем при помощи языка NetLogo (от создателя языка) - использование NetLogo в естественно-научном, инженерном и общественном образовании
    Growing Artificial Societies: Social Science From the Bottom Up (Complex Adaptive Systems)Epstein
    Axtell
    Первая книга о выращивании искусственных сообществ. В книге представлена модель Sugarscape - простое искусственное общество, в котором агенты живут на двухмерной сетке и взаимодействуют друг с другом на основе правил, регулирующих передвижение, размножение и торговлю. Модель Sugarscape служит основой для изучения различных социальных явлений, таких как возникновение распределения богатства, передача культуры, сотрудничество и конфликты.
    Modeling Social Behavior: Mathematical and Agent-Based Models of Social Dynamics and Cultural EvolutionSmaldinoСоциальные, поведенческие и когнитивные науки исторически полагались на силу слова. Слова имеют силу. Богатые аналогии могут найти отклик в умах читателей и пролить свет на тайны природы. Я говорю о вербальных теориях, описательных объяснениях сложных явлений. Большинство теорий, вероятно, более точны, чем поэтичны, но они, как правило, опираются на свойство большинства языков, согласно которому фраз могут нести в себе несколько возможных импликатур — рассмотрим, например, такие слова, как «восприятие», «категория», «идентичность», «тождественность» обучение» и даже «реакция» достаточно двусмысленны, чтобы допускать множество интерпретаций. То есть язык по своей сути (и адаптивно) расплывчат и двусмыслен. В конечном счете, это проблема для ученых, потому что нам нужно предельно четко понимать, о чем мы говорим, чтобы выдвинуть полезные теории Вселенной.
    Thinking Like a TreeResnickThinking Like a Tree (and Other Forms of Ecological Thinking ) В дождливых лесах Коста-Рики есть необычный тип дерева, известный как шагающее (walking) дерево. Оно довольно странно выглядит. Как будто кто-то вытащил дерево на метр из под земли и так и оставил с торчащими во все стороны корнями. Согласно справочникам по дождливым лесам шагающее дерево действительно меняет свое местоположение, хотя и делает это очень медленно. Его корни действуют как оценивающая система, нацеленная на поиск наилучшей почвы для дерева. Если почва с северной стороны дерева лучше, то корни с этой стороны врастают глубже и становятся крепче. Если почва с южной стороны беднее, то корни с этой стороны остаются поверхностными и слабыми. По мере того, как корни с северной стороны углубляются в почву, все дерево постепенно перемещается на север, протягивая свои корни в этом направлении. По мере того, как дерево двигается, у него появляются новые корни, некоторые из них протягиваются еще дальше на север. Если они находят там еще лучшую почву, то дерево еще немножко сдвигается на север. Или, если почва лучше на востоке, дерево сдвигается на восток. Мы можем сказать, что дерево следует стратегии TREE - T- test - пробуй, R - randomly - случайно, E-evaluate - оценивай (определяй, какие из корней нашли лучшую почву), E-elect - выбирай (направление, куда будем двигаться). Конечно, шагающее дерево в действительности не выбирает и не принимает решение, куда двигаться. Но, этот способ размышления о дереве, следующем определенной стратегии поведения, может оказаться полезным.
    Turtles, termites, and traffic jams: explorations in massively parallel microworldResnickКнига "Черепахи, термиты и дорожные пробки: исследования в микромире массово-параллельных вычислений" Децентрализованный подход к феноменам окружающего мира - на основе использования микромира с тысячами черепашек
    Незримый колледж МЭШPatarakinСтатья, в которой понятие незримого колледжа применяется к сообществу учителей, сотрудничающих внутри репозитория московской электронной школы.


    Обработка данных

    Khurmanenok result pic.png


    Семинары и конференции МГПУ про данные в образовании

    Семинар о данных в образовании