Обсуждение участника:Дамдинова Кристина: различия между версиями
Patarakin (обсуждение | вклад) →Очень внимательно к использованию имен страниц: новая тема |
Нет описания правки |
||
| Строка 1: | Строка 1: | ||
== | === Математические формулы для описания статистических характеристик выборки === | ||
=== Краткое описание применения формул в статистике === | |||
Математические формулы являются основным инструментом для формального описания статистических характеристик выборки в MediaWiki. Они позволяют точно определять меры центральной тенденции, изменчивости, формы распределения и взаимосвязи между переменными. | |||
Основные категории статистических формул включают описательную статистику, вероятностные распределения и методы статистического вывода. | |||
===== Меры центральной тенденции ===== | |||
; Выборочное среднее (среднее арифметическое): | |||
<math>\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i</math> | |||
; Медиана: | |||
<math>\text{Med} = \begin{cases} | |||
x_{\left(\frac{n+1}{2}\right)} & \text{если } n \text{ нечётное} \\ | |||
\frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} & \text{если } n \text{ чётное} | |||
\end{cases}</math> | |||
; Мода (наиболее частое значение в выборке): | |||
<math>\text{Mo} = \arg\max_{x} f(x)</math> | |||
===== Меры изменчивости ===== | |||
; Выборочная дисперсия (несмещённая оценка): | |||
<math>s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2</math> | |||
; Стандартное отклонение: | |||
<math>s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2}</math> | |||
; Размах выборки: | |||
<math>R = x_{\max} - x_{\min}</math> | |||
; Межквартильный размах: | |||
<math>IQR = Q_3 - Q_1</math> | |||
===== Меры формы распределения ===== | |||
; Коэффициент асимметрии (скошенности): | |||
<math>\gamma_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3}</math> | |||
; Коэффициент эксцесса (островершинности): | |||
<math>\gamma_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{s^4} - 3</math> | |||
===== Меры взаимосвязи между переменными ===== | |||
; Выборочная ковариация: | |||
<math>\text{Cov}(x,y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})</math> | |||
; Коэффициент корреляции Пирсона: | |||
<math>r_{xy} = \frac{\text{Cov}(x,y)}{s_x s_y} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}}</math> | |||
===== Вероятностные распределения ===== | |||
; Нормальное распределение: | |||
<math>f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math> | |||
; Экспоненциальное распределение: | |||
<math>f(x|\lambda) = \lambda e^{-\lambda x}, \quad x \geq 0</math> | |||
; Распределение хи-квадрат с k степенями свободы: | |||
<math>f(x|k) = \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}, \quad x > 0</math> | |||
===== Статистический вывод ===== | |||
; t-статистика для проверки гипотезы о среднем: | |||
<math>t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}</math> | |||
; Доверительный интервал для среднего при неизвестной дисперсии: | |||
<math>\bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}}</math> | |||
; Статистика критерия хи-квадрат: | |||
<math>\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}</math> | |||
===== Индексы и коэффициенты неравенства ===== | |||
; Коэффициент вариации: | |||
<math>CV = \frac{s}{\bar{x}} \times 100\%</math> | |||
; Стандартная ошибка среднего: | |||
<math>SE_{\bar{x}} = \frac{s}{\sqrt{n}}</math> | |||
=== Примеры применения в статистическом анализе === | |||
===== Описательная статистика для выборки доходов ===== | |||
Для выборки доходов <math>\{x_1, x_2, ..., x_n\}</math> можно рассчитать: | |||
<math> | |||
\begin{align*} | |||
\text{Средний доход} & = \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \\ | |||
\text{Медианный доход} & = \text{Med}(x) \\ | |||
\text{Дисперсия доходов} & = s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 \\ | |||
\text{Коэффициент Джини} & = G = \frac{1}{2n^2\bar{x}}\sum_{i=1}^{n}\sum_{j=1}^{n}|x_i - x_j| | |||
\end{align*} | |||
</math> | |||
===== Анализ взаимосвязи переменных ===== | |||
Для исследования связи между доходом (<math>X</math>) и потреблением (<math>Y</math>): | |||
<math> | |||
\begin{align*} | |||
\text{Ковариация} & = \text{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}) \\ | |||
\text{Коэффициент корреляции} & = r_{XY} = \frac{\text{Cov}(X,Y)}{s_X s_Y} \\ | |||
\text{Коэффициент детерминации} & = R^2 = r_{XY}^2 | |||
\end{align*} | |||
</math> | |||
=== Статистический анализ в [[R]] === | |||
; Функция для вычисления основных статистических характеристик | |||
<syntaxhighlight lang="R" line> | |||
# Функция для вычисления основных статистик выборки | |||
calculate_sample_statistics <- function(data_vector) { | |||
n <- length(data_vector) | |||
mean_val <- mean(data_vector, na.rm = TRUE) | |||
median_val <- median(data_vector, na.rm = TRUE) | |||
sd_val <- sd(data_vector, na.rm = TRUE) | |||
var_val <- var(data_vector, na.rm = TRUE) | |||
min_val <- min(data_vector, na.rm = TRUE) | |||
max_val <- max(data_vector, na.rm = TRUE) | |||
range_val <- max_val - min_val | |||
q1 <- quantile(data_vector, 0.25, na.rm = TRUE) | |||
q3 <- quantile(data_vector, 0.75, na.rm = TRUE) | |||
iqr_val <- IQR(data_vector, na.rm = TRUE) | |||
skewness_val <- moments::skewness(data_vector, na.rm = TRUE) | |||
kurtosis_val <- moments::kurtosis(data_vector, na.rm = TRUE) | |||
# Коэффициент вариации | |||
cv_val <- (sd_val / mean_val) * 100 | |||
# Стандартная ошибка среднего | |||
se_mean <- sd_val / sqrt(n) | |||
list( | |||
n = n, | |||
mean = mean_val, | |||
median = median_val, | |||
sd = sd_val, | |||
variance = var_val, | |||
min = min_val, | |||
max = max_val, | |||
range = range_val, | |||
Q1 = q1, | |||
Q3 = q3, | |||
IQR = iqr_val, | |||
skewness = skewness_val, | |||
kurtosis = kurtosis_val, | |||
coefficient_of_variation = cv_val, | |||
standard_error_mean = se_mean | |||
) | |||
} | |||
# Пример использования функции | |||
sample_data <- c(23, 45, 67, 34, 89, 56, 78, 41, 62, 55) | |||
stats <- calculate_sample_statistics(sample_data) | |||
print(stats) | |||
</syntaxhighlight> | |||
===== Функция для вычисления корреляционной матрицы ===== | |||
<syntaxhighlight lang="R" line> | |||
# Функция для вычисления корреляционной матрицы с тестами значимости | |||
calculate_correlation_matrix <- function(data_matrix) { | |||
# Матрица коэффициентов корреляции Пирсона | |||
cor_matrix <- cor(data_matrix, use = "complete.obs") | |||
# Матрица p-значений | |||
p_matrix <- matrix(0, nrow = ncol(data_matrix), ncol = ncol(data_matrix)) | |||
colnames(p_matrix) <- colnames(data_matrix) | |||
rownames(p_matrix) <- colnames(data_matrix) | |||
# Вычисление p-значений для каждой пары переменных | |||
for (i in 1:(ncol(data_matrix)-1)) { | |||
for (j in (i+1):ncol(data_matrix)) { | |||
test_result <- cor.test(data_matrix[,i], data_matrix[,j]) | |||
p_matrix[i,j] <- test_result$p.value | |||
p_matrix[j,i] <- test_result$p.value | |||
} | |||
} | |||
list( | |||
correlation_matrix = cor_matrix, | |||
p_values_matrix = p_matrix | |||
) | |||
} | |||
</syntaxhighlight> | |||
Версия от 11:24, 9 декабря 2025
Математические формулы для описания статистических характеристик выборки
Краткое описание применения формул в статистике
Математические формулы являются основным инструментом для формального описания статистических характеристик выборки в MediaWiki. Они позволяют точно определять меры центральной тенденции, изменчивости, формы распределения и взаимосвязи между переменными.
Основные категории статистических формул включают описательную статистику, вероятностные распределения и методы статистического вывода.
Меры центральной тенденции
- Выборочное среднее (среднее арифметическое)
[math]\displaystyle{ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i }[/math]
- Медиана
[math]\displaystyle{ \text{Med} = \begin{cases} x_{\left(\frac{n+1}{2}\right)} & \text{если } n \text{ нечётное} \\ \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} & \text{если } n \text{ чётное} \end{cases} }[/math]
- Мода (наиболее частое значение в выборке)
[math]\displaystyle{ \text{Mo} = \arg\max_{x} f(x) }[/math]
Меры изменчивости
- Выборочная дисперсия (несмещённая оценка)
[math]\displaystyle{ s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 }[/math]
- Стандартное отклонение
[math]\displaystyle{ s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2} }[/math]
- Размах выборки
[math]\displaystyle{ R = x_{\max} - x_{\min} }[/math]
- Межквартильный размах
[math]\displaystyle{ IQR = Q_3 - Q_1 }[/math]
Меры формы распределения
- Коэффициент асимметрии (скошенности)
[math]\displaystyle{ \gamma_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} }[/math]
- Коэффициент эксцесса (островершинности)
[math]\displaystyle{ \gamma_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{s^4} - 3 }[/math]
Меры взаимосвязи между переменными
- Выборочная ковариация
[math]\displaystyle{ \text{Cov}(x,y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}) }[/math]
- Коэффициент корреляции Пирсона
[math]\displaystyle{ r_{xy} = \frac{\text{Cov}(x,y)}{s_x s_y} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}} }[/math]
Вероятностные распределения
- Нормальное распределение
[math]\displaystyle{ f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} }[/math]
- Экспоненциальное распределение
[math]\displaystyle{ f(x|\lambda) = \lambda e^{-\lambda x}, \quad x \geq 0 }[/math]
- Распределение хи-квадрат с k степенями свободы
[math]\displaystyle{ f(x|k) = \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}, \quad x \gt 0 }[/math]
Статистический вывод
- t-статистика для проверки гипотезы о среднем
[math]\displaystyle{ t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} }[/math]
- Доверительный интервал для среднего при неизвестной дисперсии
[math]\displaystyle{ \bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} }[/math]
- Статистика критерия хи-квадрат
[math]\displaystyle{ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} }[/math]
Индексы и коэффициенты неравенства
- Коэффициент вариации
[math]\displaystyle{ CV = \frac{s}{\bar{x}} \times 100\% }[/math]
- Стандартная ошибка среднего
[math]\displaystyle{ SE_{\bar{x}} = \frac{s}{\sqrt{n}} }[/math]
Примеры применения в статистическом анализе
Описательная статистика для выборки доходов
Для выборки доходов [math]\displaystyle{ \{x_1, x_2, ..., x_n\} }[/math] можно рассчитать:
[math]\displaystyle{ \begin{align*} \text{Средний доход} & = \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \\ \text{Медианный доход} & = \text{Med}(x) \\ \text{Дисперсия доходов} & = s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 \\ \text{Коэффициент Джини} & = G = \frac{1}{2n^2\bar{x}}\sum_{i=1}^{n}\sum_{j=1}^{n}|x_i - x_j| \end{align*} }[/math]
Анализ взаимосвязи переменных
Для исследования связи между доходом ([math]\displaystyle{ X }[/math]) и потреблением ([math]\displaystyle{ Y }[/math]):
[math]\displaystyle{ \begin{align*} \text{Ковариация} & = \text{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}) \\ \text{Коэффициент корреляции} & = r_{XY} = \frac{\text{Cov}(X,Y)}{s_X s_Y} \\ \text{Коэффициент детерминации} & = R^2 = r_{XY}^2 \end{align*} }[/math]
Статистический анализ в R
- Функция для вычисления основных статистических характеристик
# Функция для вычисления основных статистик выборки
calculate_sample_statistics <- function(data_vector) {
n <- length(data_vector)
mean_val <- mean(data_vector, na.rm = TRUE)
median_val <- median(data_vector, na.rm = TRUE)
sd_val <- sd(data_vector, na.rm = TRUE)
var_val <- var(data_vector, na.rm = TRUE)
min_val <- min(data_vector, na.rm = TRUE)
max_val <- max(data_vector, na.rm = TRUE)
range_val <- max_val - min_val
q1 <- quantile(data_vector, 0.25, na.rm = TRUE)
q3 <- quantile(data_vector, 0.75, na.rm = TRUE)
iqr_val <- IQR(data_vector, na.rm = TRUE)
skewness_val <- moments::skewness(data_vector, na.rm = TRUE)
kurtosis_val <- moments::kurtosis(data_vector, na.rm = TRUE)
# Коэффициент вариации
cv_val <- (sd_val / mean_val) * 100
# Стандартная ошибка среднего
se_mean <- sd_val / sqrt(n)
list(
n = n,
mean = mean_val,
median = median_val,
sd = sd_val,
variance = var_val,
min = min_val,
max = max_val,
range = range_val,
Q1 = q1,
Q3 = q3,
IQR = iqr_val,
skewness = skewness_val,
kurtosis = kurtosis_val,
coefficient_of_variation = cv_val,
standard_error_mean = se_mean
)
}
# Пример использования функции
sample_data <- c(23, 45, 67, 34, 89, 56, 78, 41, 62, 55)
stats <- calculate_sample_statistics(sample_data)
print(stats)
Функция для вычисления корреляционной матрицы
# Функция для вычисления корреляционной матрицы с тестами значимости
calculate_correlation_matrix <- function(data_matrix) {
# Матрица коэффициентов корреляции Пирсона
cor_matrix <- cor(data_matrix, use = "complete.obs")
# Матрица p-значений
p_matrix <- matrix(0, nrow = ncol(data_matrix), ncol = ncol(data_matrix))
colnames(p_matrix) <- colnames(data_matrix)
rownames(p_matrix) <- colnames(data_matrix)
# Вычисление p-значений для каждой пары переменных
for (i in 1:(ncol(data_matrix)-1)) {
for (j in (i+1):ncol(data_matrix)) {
test_result <- cor.test(data_matrix[,i], data_matrix[,j])
p_matrix[i,j] <- test_result$p.value
p_matrix[j,i] <- test_result$p.value
}
}
list(
correlation_matrix = cor_matrix,
p_values_matrix = p_matrix
)
}
