Анализ данных: различия между версиями

Материал из Поле цифровой дидактики
 
(не показано 7 промежуточных версий этого же участника)
Строка 4: Строка 4:
|FieldActivity=Digital Citizen, Computational Thinker, Global Collaborator
|FieldActivity=Digital Citizen, Computational Thinker, Global Collaborator
|Возрастная категория=10
|Возрастная категория=10
|similar_concepts=Данные, Датасет, csv
|similar_concepts=Данные, Датасет, CSV, стандартная ошибка
|Environment=R, RStudio, Python, Snap!
|Environment=R, RStudio, Python, Snap!
}}
}}




=== Последовательность операций над данными ===
== Последовательность операций над данными ==


В книге [[R for Data Science]] приводится следующая последовательность операций над данными:
В книге [[R for Data Science]] приводится следующая последовательность операций над данными:
Строка 18: Строка 18:
node [fontsize="14", fontname="times", nodesep=2, shape="none", style=""] ;
node [fontsize="14", fontname="times", nodesep=2, shape="none", style=""] ;
rankdir=LR ;
rankdir=LR ;
Import -> Tidy -> Transform
Import -> Tidy -> Transform -> Visualize -> Model -> Transform ;


}
}
</graphviz>
</graphviz>


=== Import ===


=== Видео пояснения ===
; [[Датасет]] должен быть загружен в среду (файл с компьютера или данные из удалённого источника)
: Для [[Snap!]] просто вбросить [[CSV]] файл с данными в среду и возникнет переменная (список списков) с именем файла
: Для [[R]] read.csv() read.csv2() или загрузка через меню Import.Dataset
: g1 <- read_rds("pregraph_06_19.rds")
 
=== Tidy ===
Общее правило - в строке только одна переменная, в столбцах только одно измеряемое значение.
 
=== Transform ===
 
Выделение необходимый данных, фильтрация, объединение.
Например, выделить первый столбец с данными об авторах
[[Файл:WoS_collection_script_pic.png]]
 
== Видео пояснения ==
{{#widget:YouTube|id=go5Au01Jrvs|start=5}}
{{#widget:YouTube|id=go5Au01Jrvs|start=5}}

Текущая версия на 11:03, 3 февраля 2023

Описание После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения.
Область знаний NetSci, Археология, Информатика, Математика, История, Медицина
Область использования (ISTE) Digital Citizen, Computational Thinker, Global Collaborator
Возрастная категория 10


Поясняющее видео
Близкие рецепту понятия Данные, Датасет, CSV, стандартная ошибка
Среды и средства для приготовления рецепта: R, RStudio, Python, Snap!


Последовательность операций над данными

В книге R for Data Science приводится следующая последовательность операций над данными:

Import

Датасет должен быть загружен в среду (файл с компьютера или данные из удалённого источника)
Для Snap! просто вбросить CSV файл с данными в среду и возникнет переменная (список списков) с именем файла
Для R read.csv() read.csv2() или загрузка через меню Import.Dataset
g1 <- read_rds("pregraph_06_19.rds")

Tidy

Общее правило - в строке только одна переменная, в столбцах только одно измеряемое значение.

Transform

Выделение необходимый данных, фильтрация, объединение. Например, выделить первый столбец с данными об авторах

WoS collection script pic.png

Видео пояснения