Исследовательский анализ данных

Материал из Поле цифровой дидактики


Описание Разведочный анализ данных (англ. exploratory data analysis, EDA) — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации.
Область знаний NetSci, Большие данные
Авторы
Поясняющее видео https://www.youtube.com/watch?v=lDpgGzHe0rQ
Близкие понятия
Среды и средства для освоения понятия RAWGraphs, R, Snap!, CODAP

Разведочный анализ данных (англ. exploratory data analysis, EDA) https://www.youtube.com/watch?v=lDpgGzHe0rQ

  • Получение данных - CSV, JSON
  • Предварительная обработка
  • Описательная статистика
  • Визуализация данных - RAWGraphs, CODAP, R
  • Интерпретация результатов
Понятие введено математиком Джоном Тьюки, который сформулировал цели такого анализа следующим образом
  • максимальное «проникновение» в данные,
  • выявление основных структур,
  • выбор наиболее важных переменных,
  • обнаружение отклонений и аномалий,
  • проверка основных гипотез,
  • разработка начальных моделей.

Примеры

D I Treemap Voronoy.png

 Description
Collaborative knowledge ACM (dataset)Датасет сформирован на основании запроса к цифровой библиотеке ACM – dl.acm.org. Поисковый запрос выглядит следующим образом:
  • All: “collaborative knowledge” AND Publication Date: (2012 To 2022)
На исходный запрос мы наложили фильтр, ограничивающий формат статей только исследовательскими статьями, поскольку мы хотели получить подробное описание кейсов, в которых описывалась бы практика работы со знаниями в образовании. В ответ на такой запрос было получено 476 записей, которые составили коллекцию в системе Zotero и в формате RIS были загружены в систему VOS viewer для выявления и визуального представления сетевых отношений как между авторами, так и между ключевыми словами публикаций.
Food (dataset)The following data comes from the United States Department of Agriculture’s Food Composition Database. It contains data for various types of food including the amounts of different vitamins and minerals found in the foods as well as macronutrient percentages. The food covered spans a large variety of foods from butter to Campbell’s soup. Much of the supplementary documenation for each field comes directly from that pages’ Wikipedia article.
Forum (dataset)Датасет лог-файла форума по обсуждению книг (ранобэ)
GoogleSchool 01(dataset)Датасет собран из лог-файла действий учителей внутри школы
Graduate (dataset)Данные по выпускникам - год, численность, данные по зарплатам, демография, работа по профессии, причины выбора
  • https://corgis-edu.github.io/corgis/datasets/csv/graduates/graduates.csv
  • Может быть использован в связке с RAWGraphs
    Letopisi 2006 (dataset)120px-Hist_2006_associatios.png Лог-файл действий участников проекта Letopisi в 2006 году
    PokemonDatasetPokemon with stats
    Preschool Digital Scopus120px-Co-ocurence-network.jpg

    1709 публикаций (стандартный набор полей Скопус) - Для выделения данных из базы Scopus использовалась следующая формула:

    • ALL (( preschool OR "primary school" ) AND ( "psychological" OR "pedagogical" ) AND ( computer OR internet OR digital ) ) AND PUBYEAR > 1999 AND ( LIMIT-TO ( ACCESSTYPE(OA) ) )
    School Scores (USA dataset)Датасет с https://corgis-edu.github.io/corgis/csv/school_scores/ - 98 полей и 577 строк
    Video games (dataset)Видеоигры - готовый датасет с описанием видеоигр по массе параметров (38 столбцов) Видеоигры из https://corgis-edu.github.io/corgis/
    Библиосет: исполняемые публикацииПеречень научных публикаций, экспортированных из Dimensions по результатам поиска по ключевым словам "executable paper" с фильтром 2020-2023, являющихся исполняемой публикацией.
    Библиосет: контекст исполняемых публикацийПеречень научных публикаций, экспортированных из Dimensions по результатам поиска по ключевым словам "executable paper" с фильтром 2020-2023, содержащих описание контекста в котором упоминаются исполняемые публикации. https://drive.google.com/file/d/1z-rnslKP0Yd0hI42GNmZogLF3BXOIp2G/view?usp=share_link
    Библиосет: публикационная активность ВВГУ120px-Vl_sci_schools.png Данные о публикационной активности Владивостокского государственного университета https://vvsu.ru/ выгружены из Scopus в формате RIS.
    Библиосет: публикационная активность МГПУ120px-Collab_mgpu01.jpg
    • Данные о публикационной активности Московского городского университета https://www.mgpu.ru выгружены из Scopus в формате RIS.
    Библиосет: теория исполняемых публикацийПеречень научных публикаций, экспортированных из Dimensions по результатам поиска по ключевым словам "executable paper" с фильтром 2020-2023, где теоретически обосновываются и характеризуются исполняемые публикации или инструменты к ним. https://drive.google.com/file/d/1u6SNZwi7uhPql5IvvTtj16G2qFQpy3ds/view?usp=share_link
    Вовлеченность студентов Л2Датасет сформирован на основе запроса к WoS "engagementANDL2_students" в октябре 2021. https://app.vosviewer.com/?json=https%3A%2F%2Fdrive.google.com%2Fuc%3Fid%3D1ljcOmU8t9ip8wl-W9Mda4LuGGFwHrJZ2 Ссылка на визуализацию VOSviewer.
    Вовлеченность студентов при использовании LearningAppsДатасет создан на основе результатов опроса студентов ВВГУ по завершении обучения по курсу педагогики. Опрос проводился с помощью Гугл Форм. Из полученной базы удалены повторные ответы 2-х студентов в пользу второго варианта как более взвешенного. Названия групп и имена студентов заменены на номера по порядку. В наличии 66 ответов.
    Мотивация – как фактор управления профессиональным развитием педагогических работников общеобразовательной организацииДатасет о том, какие инструменты мотивации труда используются директорами общеобразовательных учреждений РФ.
    Сайты российских школВыявление цифровой трансформации на основании данных с сайтов школ
    Студия Collab Challenge (dataset)Это история совместной деятельности внутри Scratch студии Collab Challenge - https://scratch.mit.edu/studios/4789981/ - где в 2018 году собирались проекты на конкурс Collab Challenge. Данный датасет - возможность посмотреть деятельность сквозь призму данных Scratch API - 354 проекта
    • Collab_Challenge2018.png
    Цифровые инструменты учителейДатасет о том, какие цифровые инструменты используются учителями учителями для решения различных задач
  • + различные приёмы обработки и визуализации датасета
  • 120px-D_I_Treemap_Voronoy.png