Анализ данных

Материал из Поле цифровой дидактики
Описание После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения.
Область знаний NetSci, Археология, Информатика, Математика, История, Медицина
Область использования (ISTE) Digital Citizen, Computational Thinker, Global Collaborator
Возрастная категория 10


Поясняющее видео
Близкие рецепту понятия Данные, Датасет, CSV, стандартная ошибка
Среды и средства для приготовления рецепта: R, RStudio, Python, Snap!


Последовательность операций над данными

В книге R for Data Science приводится следующая последовательность операций над данными:

Import

Датасет должен быть загружен в среду (файл с компьютера или данные из удалённого источника)
Для Snap! просто вбросить CSV файл с данными в среду и возникнет переменная (список списков) с именем файла
Для R read.csv() read.csv2() или загрузка через меню Import.Dataset
g1 <- read_rds("pregraph_06_19.rds")

Tidy

Общее правило - в строке только одна переменная, в столбцах только одно измеряемое значение.

Transform

Выделение необходимый данных, фильтрация, объединение. Например, выделить первый столбец с данными об авторах

WoS collection script pic.png

Видео пояснения