Анализ данных: различия между версиями

Текущая версия от 11:03, 3 февраля 2023

Описание	После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения.
Область знаний	NetSci, Археология, Информатика, Математика, История, Медицина
Область использования (ISTE)	Digital Citizen, Computational Thinker, Global Collaborator
Возрастная категория	10
Поясняющее видео
Близкие рецепту понятия	Данные, Датасет, CSV, стандартная ошибка
Среды и средства для приготовления рецепта:	R, RStudio, Python, Snap!

Последовательность операций над данными

В книге R for Data Science приводится следующая последовательность операций над данными:

Import

Датасет должен быть загружен в среду (файл с компьютера или данные из удалённого источника): Для Snap! просто вбросить CSV файл с данными в среду и возникнет переменная (список списков) с именем файла; Для R read.csv() read.csv2() или загрузка через меню Import.Dataset; g1 <- read_rds("pregraph_06_19.rds")

Tidy

Общее правило - в строке только одна переменная, в столбцах только одно измеряемое значение.

Transform

Выделение необходимый данных, фильтрация, объединение. Например, выделить первый столбец с данными об авторах

Видео пояснения

@@ Строка 1: / Строка 1: @@
 {{Scripting Tutorials
 |Description=После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения.
+|Field_of_knowledge=NetSci, Археология, Информатика, Математика, История, Медицина
+|FieldActivity=Digital Citizen, Computational Thinker, Global Collaborator
 |Возрастная категория=10
-|similar_concepts=Данные, Датасет, csv
+|similar_concepts=Данные, Датасет, CSV, стандартная ошибка
 |Environment=R, RStudio, Python, Snap!
 }}
+== Последовательность операций над данными ==
+В книге [[R for Data Science]] приводится следующая последовательность операций над данными:
+<graphviz>
+digraph P {
+node [fontsize="14", fontname="times", nodesep=2, shape="none", style=""] ;
+rankdir=LR ;
+Import -> Tidy -> Transform -> Visualize -> Model -> Transform ;
+}
+</graphviz>
+=== Import ===
+; [[Датасет]] должен быть загружен в среду (файл с компьютера или данные из удалённого источника)
+: Для [[Snap!]] просто вбросить [[CSV]] файл с данными в среду и возникнет переменная (список списков) с именем файла
+: Для [[R]] read.csv() read.csv2() или загрузка через меню Import.Dataset
+: g1 <- read_rds("pregraph_06_19.rds")
+=== Tidy ===
+Общее правило - в строке только одна переменная, в столбцах только одно измеряемое значение.
+=== Transform ===
+Выделение необходимый данных, фильтрация, объединение.
+Например, выделить первый столбец с данными об авторах
+[[Файл:WoS_collection_script_pic.png]]
+== Видео пояснения ==
+{{#widget:YouTube|id=go5Au01Jrvs|start=5}}

Аноним

Поиск

Анализ данных: различия между версиями

Пространства имён

Ещё

Действия на странице

Текущая версия от 11:03, 3 февраля 2023

Содержание

Последовательность операций над данными

Import

Tidy

Transform

Видео пояснения

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

Анализ данных: различия между версиями

Текущая версия от 11:03, 3 февраля 2023

Последовательность операций над данными

Import

Tidy

Transform

Видео пояснения

Навигация

Вики-инструменты

Инструменты для страниц

Категории