Описательная статистика: различия между версиями
Материал из Поле цифровой дидактики
Patarakin (обсуждение | вклад) |
Patarakin (обсуждение | вклад) |
||
| (не показано 11 промежуточных версий этого же участника) | |||
| Строка 8: | Строка 8: | ||
* калибровки параметров модели на основе эмпирических данных | * калибровки параметров модели на основе эмпирических данных | ||
|Field_of_knowledge=Статистика | |Field_of_knowledge=Статистика | ||
|Environment=CODAP, R, NetLogo | |Environment=CODAP, R, NetLogo, Lua,Как проводить статистические вычисления в Lua | ||
}} | }} | ||
=== Меры центральной тенденции === | === Меры центральной тенденции === | ||
| Строка 19: | Строка 19: | ||
<math>\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i</math> | <math>\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i</math> | ||
'''Интерпретация''': Центральное значение. Говорит, где находится "центр тяжести" данных. | |||
; Пример из Teacher Satisfaction: | |||
* mean-satisfaction-all = 0.546 → Средняя удовлетворенность учителей 54.6% | |||
* Sch_Quality_Variation = 0.400 → В среднем вариация качества школ 40% | |||
==== Медиана (Median) ==== | ==== Медиана (Median) ==== | ||
Медиана — это значение, которое делит упорядоченный ряд данных пополам. При нечетном количестве элементов — это средний элемент, при четном — среднее арифметическое двух средних элементов: | Медиана — это значение, которое делит упорядоченный ряд данных пополам. При нечетном количестве элементов — это средний элемент, при четном — среднее арифметическое двух средних элементов: | ||
: Пример: Для набора оценок {3, 4, 4, 5, 5} медиана = 4 | |||
==== Мода (Mode) ==== | |||
; Мода — это наиболее часто встречающееся значение в наборе данных. | |||
: Пример: В наборе {3, 4, 4, 5, 5, 5} мода = 5 (встречается 3 раза) | |||
===== R ===== | |||
<syntaxhighlight lang="R" line> | |||
get_mode <- function(x) { | |||
ux <- unique(x) | |||
ux[which.max(tabulate(match(x, ux)))] | |||
} | |||
grades <- c(4, 5, 3, 5, 4) | |||
mode_grade <- get_mode(grades) | |||
print(mode_grade) Output: 5 или 5 | |||
</syntaxhighlight> | |||
=== Меры разброса (вариации) === | |||
==== Размах (Range) ==== | |||
; Размах — это разность между максимальным и минимальным значением: | |||
: $$R = x_{max} - x_{min}$$ | |||
: Пример: Для оценок {3, 4, 4, 5, 5} размах = 5 - 3 = 2 | |||
==== [[Дисперсия]] ==== | |||
{{#ask: [[Дисперсия]] | ?Description }} | |||
==== Стандартное отклонение ==== | |||
{{#ask: [[Стандартное отклонение]] | ?Description }} | |||
==== Квартили и процентили ==== | |||
Квартили делят данные на четыре равные части: | |||
* Q1 (первый квартиль) — 25-й процентиль | |||
* Q2 (второй квартиль) — 50-й процентиль (медиана) | |||
* Q3 (третий квартиль) — 75-й процентиль | |||
=== Контрольные вопросы === | |||
* Рассчитать основные описательные статистики (среднее, медиана, стандартное отклонение) для набора данных ([[CODAP]], [[R]], [[RAWGraphs]], [[StatKey]]) | |||
** см. [[Обсуждение:Wealth_Distribution]] | |||
Текущая версия от 20:01, 9 января 2026
| Описание | Описательная статистика (Descriptive Statistics) — это раздел статистики, который занимается систематизацией, представлением и анализом характеристик данных с целью их описания, но без попыток делать выводы о более широкой совокупности.
В контексте вычислительной социально-экономической статистики и агентного моделирования описательная статистика используется для:
|
|---|---|
| Область знаний | Статистика |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия | CODAP, R, NetLogo, Lua, Как проводить статистические вычисления в Lua |
Меры центральной тенденции
Среднее арифметическое (Mean)
Среднее арифметическое — это сумма всех значений, деленная на их количество:
[math]\displaystyle{ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i }[/math]
Интерпретация: Центральное значение. Говорит, где находится "центр тяжести" данных.
- Пример из Teacher Satisfaction
- mean-satisfaction-all = 0.546 → Средняя удовлетворенность учителей 54.6%
- Sch_Quality_Variation = 0.400 → В среднем вариация качества школ 40%
Медиана (Median)
Медиана — это значение, которое делит упорядоченный ряд данных пополам. При нечетном количестве элементов — это средний элемент, при четном — среднее арифметическое двух средних элементов:
- Пример: Для набора оценок {3, 4, 4, 5, 5} медиана = 4
Мода (Mode)
- Мода — это наиболее часто встречающееся значение в наборе данных.
- Пример: В наборе {3, 4, 4, 5, 5, 5} мода = 5 (встречается 3 раза)
R
get_mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
grades <- c(4, 5, 3, 5, 4)
mode_grade <- get_mode(grades)
print(mode_grade) Output: 5 или 5
Меры разброса (вариации)
Размах (Range)
- Размах — это разность между максимальным и минимальным значением
- $$R = x_{max} - x_{min}$$
- Пример: Для оценок {3, 4, 4, 5, 5} размах = 5 - 3 = 2
| Description | |
|---|---|
| Дисперсия | Дисперсия (англ. variance) — мера разброса значений случайной величины относительно её математического ожидания. Дисперсия характеризует степень изменчивости экономических показателей вокруг их среднего значения. |
Стандартное отклонение
| Description | |
|---|---|
| Стандартное отклонение | Стандартное отклонение (среднеквадратическое отклонение, англ. standard deviation) — квадратный корень из дисперсии случайной величины.
|
Квартили и процентили
Квартили делят данные на четыре равные части:
- Q1 (первый квартиль) — 25-й процентиль
- Q2 (второй квартиль) — 50-й процентиль (медиана)
- Q3 (третий квартиль) — 75-й процентиль
