Исследовательский анализ данных
Материал из Поле цифровой дидактики
Описание | Разведочный анализ данных (англ. exploratory data analysis, EDA) — анализ основных свойств данных, нахождение в них общих закономерностей, распределений и аномалий, построение начальных моделей, зачастую с использованием инструментов визуализации. |
---|---|
Область знаний | NetSci, Большие данные |
Авторы | |
Поясняющее видео | https://www.youtube.com/watch?v=lDpgGzHe0rQ |
Близкие понятия | |
Среды и средства для освоения понятия | RAWGraphs, R, Snap!, CODAP |
Разведочный анализ данных (англ. exploratory data analysis, EDA) https://www.youtube.com/watch?v=lDpgGzHe0rQ
- Получение данных - CSV, JSON
- Предварительная обработка
- Описательная статистика
- Визуализация данных - RAWGraphs, CODAP, R
- Интерпретация результатов
- Понятие введено математиком Джоном Тьюки, который сформулировал цели такого анализа следующим образом
- максимальное «проникновение» в данные,
- выявление основных структур,
- выбор наиболее важных переменных,
- обнаружение отклонений и аномалий,
- проверка основных гипотез,
- разработка начальных моделей.
Примеры
Description | |
---|---|
Collaborative knowledge ACM (dataset) | Датасет сформирован на основании запроса к цифровой библиотеке ACM – dl.acm.org. Поисковый запрос выглядит следующим образом:
|
Food (dataset) | The following data comes from the United States Department of Agriculture’s Food Composition Database. It contains data for various types of food including the amounts of different vitamins and minerals found in the foods as well as macronutrient percentages. The food covered spans a large variety of foods from butter to Campbell’s soup. Much of the supplementary documenation for each field comes directly from that pages’ Wikipedia article. |
Forum (dataset) | Датасет лог-файла форума по обсуждению книг (ранобэ) |
GoogleSchool 01(dataset) | Датасет собран из лог-файла действий учителей внутри школы |
Graduate (dataset) | Данные по выпускникам - год, численность, данные по зарплатам, демография, работа по профессии, причины выбора
|
Letopisi 2006 (dataset) | Лог-файл действий участников проекта Letopisi в 2006 году |
PokemonDataset | Pokemon with stats |
Preschool Digital Scopus | 1709 публикаций (стандартный набор полей Скопус) - Для выделения данных из базы Scopus использовалась следующая формула:
|
School Scores (USA dataset) | Датасет с https://corgis-edu.github.io/corgis/csv/school_scores/ - 98 полей и 577 строк |
Video games (dataset) | Видеоигры - готовый датасет с описанием видеоигр по массе параметров (38 столбцов) Видеоигры из https://corgis-edu.github.io/corgis/ |
Библиосет: исполняемые публикации | Перечень научных публикаций, экспортированных из Dimensions по результатам поиска по ключевым словам "executable paper" с фильтром 2020-2023, являющихся исполняемой публикацией. |
Библиосет: контекст исполняемых публикаций | Перечень научных публикаций, экспортированных из Dimensions по результатам поиска по ключевым словам "executable paper" с фильтром 2020-2023, содержащих описание контекста в котором упоминаются исполняемые публикации. https://drive.google.com/file/d/1z-rnslKP0Yd0hI42GNmZogLF3BXOIp2G/view?usp=share_link |
Библиосет: публикационная активность ВВГУ | Данные о публикационной активности Владивостокского государственного университета https://vvsu.ru/ выгружены из Scopus в формате RIS. |
Библиосет: публикационная активность МГПУ |
|
Библиосет: теория исполняемых публикаций | Перечень научных публикаций, экспортированных из Dimensions по результатам поиска по ключевым словам "executable paper" с фильтром 2020-2023, где теоретически обосновываются и характеризуются исполняемые публикации или инструменты к ним. https://drive.google.com/file/d/1u6SNZwi7uhPql5IvvTtj16G2qFQpy3ds/view?usp=share_link |
Вовлеченность студентов Л2 | Датасет сформирован на основе запроса к WoS "engagementANDL2_students" в октябре 2021. https://app.vosviewer.com/?json=https%3A%2F%2Fdrive.google.com%2Fuc%3Fid%3D1ljcOmU8t9ip8wl-W9Mda4LuGGFwHrJZ2 Ссылка на визуализацию VOSviewer. |
Вовлеченность студентов при использовании LearningApps | Датасет создан на основе результатов опроса студентов ВВГУ по завершении обучения по курсу педагогики. Опрос проводился с помощью Гугл Форм. Из полученной базы удалены повторные ответы 2-х студентов в пользу второго варианта как более взвешенного. Названия групп и имена студентов заменены на номера по порядку. В наличии 66 ответов. |
Мотивация – как фактор управления профессиональным развитием педагогических работников общеобразовательной организации | Датасет о том, какие инструменты мотивации труда используются директорами общеобразовательных учреждений РФ. |
Сайты российских школ | Выявление цифровой трансформации на основании данных с сайтов школ |
Студия Collab Challenge (dataset) | Это история совместной деятельности внутри Scratch студии Collab Challenge - https://scratch.mit.edu/studios/4789981/ - где в 2018 году собирались проекты на конкурс Collab Challenge. Данный датасет - возможность посмотреть деятельность сквозь призму данных Scratch API - 354 проекта
|
Цифровые инструменты учителей | Датасет о том, какие цифровые инструменты используются учителями учителями для решения различных задач
|