Анализ данных: различия между версиями
Материал из Поле цифровой дидактики
Patarakin (обсуждение | вклад) Новая страница: «{{Scripting Tutorials |Description=После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения. |Воз...» |
Patarakin (обсуждение | вклад) Нет описания правки |
||
| (не показано 11 промежуточных версий этого же участника) | |||
| Строка 1: | Строка 1: | ||
{{Scripting Tutorials | {{Scripting Tutorials | ||
|Description=После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения. | |Description=После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения. | ||
|Field_of_knowledge=NetSci, Археология, Информатика, Математика, История, Медицина | |||
|FieldActivity=Digital Citizen, Computational Thinker, Global Collaborator | |||
|Возрастная категория=10 | |Возрастная категория=10 | ||
|similar_concepts=Данные, Датасет, | |similar_concepts=Данные, Датасет, CSV, стандартная ошибка | ||
|Environment=R, RStudio, Python, Snap! | |Environment=R, RStudio, Python, Snap! | ||
}} | }} | ||
== Последовательность операций над данными == | |||
В книге [[R for Data Science]] приводится следующая последовательность операций над данными: | |||
<graphviz> | |||
digraph P { | |||
node [fontsize="14", fontname="times", nodesep=2, shape="none", style=""] ; | |||
rankdir=LR ; | |||
Import -> Tidy -> Transform -> Visualize -> Model -> Transform ; | |||
} | |||
</graphviz> | |||
=== Import === | |||
; [[Датасет]] должен быть загружен в среду (файл с компьютера или данные из удалённого источника) | |||
: Для [[Snap!]] просто вбросить [[CSV]] файл с данными в среду и возникнет переменная (список списков) с именем файла | |||
: Для [[R]] read.csv() read.csv2() или загрузка через меню Import.Dataset | |||
: g1 <- read_rds("pregraph_06_19.rds") | |||
=== Tidy === | |||
Общее правило - в строке только одна переменная, в столбцах только одно измеряемое значение. | |||
=== Transform === | |||
Выделение необходимый данных, фильтрация, объединение. | |||
Например, выделить первый столбец с данными об авторах | |||
[[Файл:WoS_collection_script_pic.png]] | |||
== Видео пояснения == | |||
{{#widget:YouTube|id=go5Au01Jrvs|start=5}} | |||
Текущая версия от 11:03, 3 февраля 2023
| Описание | После того, как мы собрали или вырастили данные, наступает этап их анализа. В прикладной науке о данных выделяется определённая последовательность действий, которые совершаются над данными для их лучшего понимания и объяснения. |
|---|---|
| Область знаний | NetSci, Археология, Информатика, Математика, История, Медицина |
| Область использования (ISTE) | Digital Citizen, Computational Thinker, Global Collaborator |
| Возрастная категория | 10
|
| Поясняющее видео | |
| Близкие рецепту понятия | Данные, Датасет, CSV, стандартная ошибка |
| Среды и средства для приготовления рецепта: | R, RStudio, Python, Snap! |
Последовательность операций над данными
В книге R for Data Science приводится следующая последовательность операций над данными:

Import
- Датасет должен быть загружен в среду (файл с компьютера или данные из удалённого источника)
- Для Snap! просто вбросить CSV файл с данными в среду и возникнет переменная (список списков) с именем файла
- Для R read.csv() read.csv2() или загрузка через меню Import.Dataset
- g1 <- read_rds("pregraph_06_19.rds")
Tidy
Общее правило - в строке только одна переменная, в столбцах только одно измеряемое значение.
Transform
Выделение необходимый данных, фильтрация, объединение. Например, выделить первый столбец с данными об авторах
Видео пояснения

