|
|
| Строка 32: |
Строка 32: |
| <math>R = x_{\max} - x_{\min}</math> | | <math>R = x_{\max} - x_{\min}</math> |
|
| |
|
| ; Межквартильный размах:
| |
| <math>IQR = Q_3 - Q_1</math>
| |
|
| |
|
| ===== Меры формы распределения ===== | | ===== Меры формы распределения ===== |
| Строка 39: |
Строка 37: |
| ; Коэффициент асимметрии (скошенности): | | ; Коэффициент асимметрии (скошенности): |
| <math>\gamma_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3}</math> | | <math>\gamma_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3}</math> |
|
| |
| ; Коэффициент эксцесса (островершинности):
| |
| <math>\gamma_2 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{s^4} - 3</math>
| |
|
| |
| ===== Меры взаимосвязи между переменными =====
| |
|
| |
| ; Выборочная ковариация:
| |
| <math>\text{Cov}(x,y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})</math>
| |
|
| |
| ; Коэффициент корреляции Пирсона:
| |
| <math>r_{xy} = \frac{\text{Cov}(x,y)}{s_x s_y} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}}</math>
| |
|
| |
|
| ===== Вероятностные распределения ===== | | ===== Вероятностные распределения ===== |
| Строка 56: |
Строка 43: |
| <math>f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math> | | <math>f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}</math> |
|
| |
|
| ; Экспоненциальное распределение:
| |
| <math>f(x|\lambda) = \lambda e^{-\lambda x}, \quad x \geq 0</math>
| |
|
| |
| ; Распределение хи-квадрат с k степенями свободы:
| |
| <math>f(x|k) = \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2-1}e^{-x/2}, \quad x > 0</math>
| |
|
| |
|
| ===== Статистический вывод ===== | | ===== Статистический вывод ===== |
| Строка 72: |
Строка 54: |
| ; Статистика критерия хи-квадрат: | | ; Статистика критерия хи-квадрат: |
| <math>\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}</math> | | <math>\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}</math> |
|
| |
| ===== Индексы и коэффициенты неравенства =====
| |
|
| |
| ; Коэффициент вариации:
| |
| <math>CV = \frac{s}{\bar{x}} \times 100\%</math>
| |
|
| |
| ; Стандартная ошибка среднего:
| |
| <math>SE_{\bar{x}} = \frac{s}{\sqrt{n}}</math>
| |
|
| |
| === Примеры применения в статистическом анализе ===
| |
|
| |
| ===== Описательная статистика для выборки доходов =====
| |
|
| |
| Для выборки доходов <math>\{x_1, x_2, ..., x_n\}</math> можно рассчитать:
| |
|
| |
| <math>
| |
| \begin{align*}
| |
| \text{Средний доход} & = \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \\
| |
| \text{Медианный доход} & = \text{Med}(x) \\
| |
| \text{Дисперсия доходов} & = s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 \\
| |
| \text{Коэффициент Джини} & = G = \frac{1}{2n^2\bar{x}}\sum_{i=1}^{n}\sum_{j=1}^{n}|x_i - x_j|
| |
| \end{align*}
| |
| </math>
| |
|
| |
| ===== Анализ взаимосвязи переменных =====
| |
|
| |
| Для исследования связи между доходом (<math>X</math>) и потреблением (<math>Y</math>):
| |
|
| |
| <math>
| |
| \begin{align*}
| |
| \text{Ковариация} & = \text{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y}) \\
| |
| \text{Коэффициент корреляции} & = r_{XY} = \frac{\text{Cov}(X,Y)}{s_X s_Y} \\
| |
| \text{Коэффициент детерминации} & = R^2 = r_{XY}^2
| |
| \end{align*}
| |
| </math>
| |
|
| |
| === Статистический анализ в [[R]] ===
| |
|
| |
| ; Функция для вычисления основных статистических характеристик
| |
|
| |
| <syntaxhighlight lang="R" line>
| |
| # Функция для вычисления основных статистик выборки
| |
| calculate_sample_statistics <- function(data_vector) {
| |
| n <- length(data_vector)
| |
| mean_val <- mean(data_vector, na.rm = TRUE)
| |
| median_val <- median(data_vector, na.rm = TRUE)
| |
| sd_val <- sd(data_vector, na.rm = TRUE)
| |
| var_val <- var(data_vector, na.rm = TRUE)
| |
| min_val <- min(data_vector, na.rm = TRUE)
| |
| max_val <- max(data_vector, na.rm = TRUE)
| |
| range_val <- max_val - min_val
| |
| q1 <- quantile(data_vector, 0.25, na.rm = TRUE)
| |
| q3 <- quantile(data_vector, 0.75, na.rm = TRUE)
| |
| iqr_val <- IQR(data_vector, na.rm = TRUE)
| |
| skewness_val <- moments::skewness(data_vector, na.rm = TRUE)
| |
| kurtosis_val <- moments::kurtosis(data_vector, na.rm = TRUE)
| |
|
| |
| # Коэффициент вариации
| |
| cv_val <- (sd_val / mean_val) * 100
| |
|
| |
| # Стандартная ошибка среднего
| |
| se_mean <- sd_val / sqrt(n)
| |
|
| |
| list(
| |
| n = n,
| |
| mean = mean_val,
| |
| median = median_val,
| |
| sd = sd_val,
| |
| variance = var_val,
| |
| min = min_val,
| |
| max = max_val,
| |
| range = range_val,
| |
| Q1 = q1,
| |
| Q3 = q3,
| |
| IQR = iqr_val,
| |
| skewness = skewness_val,
| |
| kurtosis = kurtosis_val,
| |
| coefficient_of_variation = cv_val,
| |
| standard_error_mean = se_mean
| |
| )
| |
| }
| |
|
| |
| # Пример использования функции
| |
| sample_data <- c(23, 45, 67, 34, 89, 56, 78, 41, 62, 55)
| |
| stats <- calculate_sample_statistics(sample_data)
| |
| print(stats)
| |
| </syntaxhighlight>
| |
|
| |
| ===== Функция для вычисления корреляционной матрицы =====
| |
|
| |
| <syntaxhighlight lang="R" line>
| |
| # Функция для вычисления корреляционной матрицы с тестами значимости
| |
| calculate_correlation_matrix <- function(data_matrix) {
| |
| # Матрица коэффициентов корреляции Пирсона
| |
| cor_matrix <- cor(data_matrix, use = "complete.obs")
| |
|
| |
| # Матрица p-значений
| |
| p_matrix <- matrix(0, nrow = ncol(data_matrix), ncol = ncol(data_matrix))
| |
| colnames(p_matrix) <- colnames(data_matrix)
| |
| rownames(p_matrix) <- colnames(data_matrix)
| |
|
| |
| # Вычисление p-значений для каждой пары переменных
| |
| for (i in 1:(ncol(data_matrix)-1)) {
| |
| for (j in (i+1):ncol(data_matrix)) {
| |
| test_result <- cor.test(data_matrix[,i], data_matrix[,j])
| |
| p_matrix[i,j] <- test_result$p.value
| |
| p_matrix[j,i] <- test_result$p.value
| |
| }
| |
| }
| |
|
| |
| list(
| |
| correlation_matrix = cor_matrix,
| |
| p_values_matrix = p_matrix
| |
| )
| |
| }
| |
| </syntaxhighlight>
| |
Математические формулы для описания статистических характеристик выборки
Краткое описание применения формул в статистике
Математические формулы являются основным инструментом для формального описания статистических характеристик выборки в MediaWiki. Они позволяют точно определять меры центральной тенденции, изменчивости, формы распределения и взаимосвязи между переменными.
Основные категории статистических формул включают описательную статистику, вероятностные распределения и методы статистического вывода.
Меры центральной тенденции
- Выборочное среднее (среднее арифметическое)
[math]\displaystyle{ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i }[/math]
- Медиана
[math]\displaystyle{ \text{Med} = \begin{cases}
x_{\left(\frac{n+1}{2}\right)} & \text{если } n \text{ нечётное} \\
\frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2}+1\right)}}{2} & \text{если } n \text{ чётное}
\end{cases} }[/math]
- Мода (наиболее частое значение в выборке)
[math]\displaystyle{ \text{Mo} = \arg\max_{x} f(x) }[/math]
Меры изменчивости
- Выборочная дисперсия (несмещённая оценка)
[math]\displaystyle{ s^2 = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2 }[/math]
- Стандартное отклонение
[math]\displaystyle{ s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^2} }[/math]
- Размах выборки
[math]\displaystyle{ R = x_{\max} - x_{\min} }[/math]
Меры формы распределения
- Коэффициент асимметрии (скошенности)
[math]\displaystyle{ \gamma_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} }[/math]
Вероятностные распределения
- Нормальное распределение
[math]\displaystyle{ f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} }[/math]
Статистический вывод
- t-статистика для проверки гипотезы о среднем
[math]\displaystyle{ t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}} }[/math]
- Доверительный интервал для среднего при неизвестной дисперсии
[math]\displaystyle{ \bar{x} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} }[/math]
- Статистика критерия хи-квадрат
[math]\displaystyle{ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} }[/math]