Участник:Kokotanov ABP231: различия между версиями

Материал из Поле цифровой дидактики
Новая страница: «== Основные статистические характеристики выборки в эконометрике == {| class="wikitable" style="margin: 1em auto; text-align: center;" + Описание темы ! Параметр !! Значение - Предмет - Тема - Формулы - Область применения } == Введение == В эконометрике постоянно используются формулы, ко...»
 
Строка 1: Строка 1:
== Основные статистические характеристики выборки в эконометрике ==
== Основные статистические характеристики выборки в эконометрике Кокотанов АБП-231 ==


{| class="wikitable" style="margin: 1em auto; text-align: center;"
{| class="wikitable" style="margin: 1em auto; text-align: center;"
Строка 14: Строка 14:
Область применения
Область применения
}
}
== Введение ==
== Введение ==



Версия от 09:48, 27 декабря 2025

Основные статистические характеристики выборки в эконометрике Кокотанов АБП-231

+ Описание темы
Параметр Значение

- Предмет - Тема - Формулы - Область применения }

Введение

В эконометрике постоянно используются формулы, которые описывают статистические характеристики выборки: выборочное среднее, выборочная дисперсия, коэффициент корреляции и средняя ошибка аппроксимации. Эти показатели помогают описать данные, измерить разброс значений и качество эконометрической модели.

Я изучал эти формулы, потому что они являются фундаментом для понимания того, как работают эконометрические модели и как оценивается их точность. Они встречаются в курсах по статистике, анализу данных и эконометрике.

Выборочное среднее

Выборочное среднее показывает «средний уровень» признака в выборке и является аналогом обычного среднего арифметического.

Для несгруппированных данных

Формула выборочного среднего для несгруппированных данных:

[math]\displaystyle{ \bar{x} = \frac{x_1 + x_2 + \ldots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n} }[/math]

где:

[math]\displaystyle{ \bar{x} }[/math] — выборочное среднее

[math]\displaystyle{ x_i }[/math] — i-е наблюдение в выборке

[math]\displaystyle{ n }[/math] — объём выборки (количество наблюдений)

[math]\displaystyle{ \sum }[/math] — знак суммирования

Интерпретация: Если у нас есть 5 студентов с оценками 4, 5, 3, 4, 4, то среднее будет (4+5+3+4+4)/5 = 4.

Для сгруппированных данных

Если данные сгруппированы (одно значение повторяется несколько раз), используют формулу с учётом частот:

[math]\displaystyle{ \bar{x} = \frac{f_1 x_1 + f_2 x_2 + \ldots + f_k x_k}{f_1 + f_2 + \ldots + f_k} = \frac{\sum_{i=1}^{k} f_i x_i}{\sum_{i=1}^{k} f_i} }[/math]

где:

[math]\displaystyle{ f_i }[/math] — частота (сколько раз встретилось значение [math]\displaystyle{ x_i }[/math])

[math]\displaystyle{ k }[/math] — количество различных значений

Пример: Если оценка 3 встречается 1 раз, оценка 4 встречается 3 раза, оценка 5 встречается 1 раз, то среднее будет (1·3 + 3·4 + 1·5)/(1+3+1) = 16/5 = 3,2.

Для интервальных данных

Для интервальных данных (когда значения сгруппированы в классы или интервалы) применяется формула:

[math]\displaystyle{ \bar{x} = \frac{\sum_{i=1}^{k} f_i m_i}{\sum_{i=1}^{k} f_i} }[/math]

где [math]\displaystyle{ m_i }[/math] — середина i-го интервала (класса), [math]\displaystyle{ f_i }[/math] — частота в этом интервале.

Выборочная дисперсия

Выборочная дисперсия показывает, насколько сильно элементы выборки отклоняются от среднего. Это мера разброса данных вокруг среднего значения.

Формула дисперсии

Формула выборочной дисперсии:

[math]\displaystyle{ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1} }[/math]

где:

[math]\displaystyle{ s^2 }[/math] — выборочная дисперсия

[math]\displaystyle{ x_i }[/math] — i-ое значение в выборке

[math]\displaystyle{ \bar{x} }[/math] — выборочное среднее

[math]\displaystyle{ n }[/math] — размер выборки

[math]\displaystyle{ \sum }[/math] — знак суммы элементов

Важно: В знаменателе стоит (n-1), а не n. Это называется несмещённой оценкой дисперсии и используется в выборочной статистике.

Альтернативная формула для расчёта

Для упрощения ручного вычисления можно использовать эквивалентную формулу:

[math]\displaystyle{ s^2 = \frac{1}{n - 1} \left( \sum_{i=1}^{n} x_i^2 - \frac{\left(\sum_{i=1}^{n} x_i\right)^2}{n} \right) }[/math]

Эта форма удобна для ручных расчётов и часто встречается в учебниках.

Стандартное отклонение

Выборочная дисперсия измеряется в квадратах единиц измерения исходных данных. Для получения меры разброса в тех же единицах, что и исходные данные, используется стандартное отклонение (среднеквадратическое отклонение):

[math]\displaystyle{ s = \sqrt{s^2} }[/math]

Интерпретация: Если дисперсия доходов равна 2500 (тыс. рублей)², то стандартное отклонение равно 50 тыс. рублей, что означает: в среднем доход отклоняется от средней величины на 50 тыс. рублей.

Коэффициент вариации

Коэффициент вариации показывает относительный разброс данных (в процентах). Это удобно для сравнения вариабельности разных показателей с разными единицами измерения.

Формула коэффициента вариации

[math]\displaystyle{ V = \frac{s}{\bar{x}} \times 100% }[/math]

где:

[math]\displaystyle{ V }[/math] — коэффициент вариации (в процентах)

[math]\displaystyle{ s }[/math] — стандартное отклонение

[math]\displaystyle{ \bar{x} }[/math] — выборочное среднее

Интерпретация:

V < 10% — слабая вариабельность (данные однородны)

V = 10%-25% — умеренная вариабельность

V > 25% — высокая вариабельность (данные разнородны)

Выборочный коэффициент корреляции

В эконометрике часто анализируют связь между двумя признаками, например, доход и потребление, цена и спрос. Для этого используют коэффициент корреляции.

Формула линейного коэффициента корреляции

[math]\displaystyle{ r_{xy} = \frac{\operatorname{cov}(x, y)}{\sigma_x \cdot \sigma_y} }[/math]

где:

[math]\displaystyle{ r_{xy} }[/math] — выборочный коэффициент корреляции

[math]\displaystyle{ \operatorname{cov}(x, y) }[/math] — выборочная ковариация двух переменных

[math]\displaystyle{ \sigma_x }[/math] и [math]\displaystyle{ \sigma_y }[/math] — выборочные среднеквадратические отклонения

Альтернативная формула через суммы

На практике коэффициент корреляции часто считают так:

[math]\displaystyle{ r_{xy} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{\sqrt{(n \sum x_i^2 - (\sum x_i)^2)(n \sum y_i^2 - (\sum y_i)^2)}} }[/math]

Интерпретация коэффициента корреляции

Коэффициент корреляции принимает значения от –1 до +1:

+ Интерпретация коэффициента корреляции
Значение Интерпретация

- [math]\displaystyle{ r_{xy} \approx 1 }[/math] - [math]\displaystyle{ 0,7 < r_{xy} < 1 }[/math] - [math]\displaystyle{ 0,3 < r_{xy} < 0,7 }[/math] - [math]\displaystyle{ 0 < r_{xy} < 0,3 }[/math] - [math]\displaystyle{ r_{xy} \approx 0 }[/math] - [math]\displaystyle{ -0,3 < r_{xy} < 0 }[/math] - [math]\displaystyle{ -0,7 < r_{xy} < -0,3 }[/math] - [math]\displaystyle{ -1 < r_{xy} < -0,7 }[/math] - [math]\displaystyle{ r_{xy} \approx -1 }[/math] } Примеры:

Если [math]\displaystyle{ r_{xy} = 0,85 }[/math] — между доходом и потреблением есть сильная положительная связь (при росте дохода потребление растёт)

Если [math]\displaystyle{ r_{xy} = -0,65 }[/math] — между ценой и спросом есть средняя отрицательная связь (при росте цены спрос уменьшается)

Средняя ошибка аппроксимации

Средняя ошибка аппроксимации оценивает качество эконометрической модели — насколько хорошо теоретические (расчётные) значения модели приближают фактические значения.

Формула относительной ошибки для одного наблюдения

Для каждого наблюдения считают относительную ошибку аппроксимации (по модулю):

[math]\displaystyle{ A_i = \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100% }[/math]

где:

[math]\displaystyle{ y_i }[/math] — фактическое (наблюдаемое) значение зависимой переменной

[math]\displaystyle{ \hat{y}_i }[/math] — расчётное (предсказанное) значение, полученное по модели

Модуль (абсолютное значение) нужен, чтобы избежать взаимной компенсации положительных и отрицательных ошибок

Формула средней ошибки аппроксимации

Средняя ошибка аппроксимации — это простое среднее этих относительных ошибок:

[math]\displaystyle{ \bar{A} = \frac{1}{n} \sum_{i=1}^{n} A_i = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100% }[/math]

где [math]\displaystyle{ n }[/math] — количество наблюдений в выборке.

Интерпретация и допустимые пределы

Интерпретация: Средняя ошибка аппроксимации показывает, на сколько процентов в среднем расчётные значения отклоняются от фактических.

[math]\displaystyle{ \bar{A} \leq 5% }[/math] — модель имеет отличное качество

[math]\displaystyle{ 5% < \bar{A} \leq 10% }[/math] — модель имеет хорошее качество (допустимо)

[math]\displaystyle{ 10% < \bar{A} \leq 15% }[/math] — модель имеет приемлемое качество

[math]\displaystyle{ \bar{A} > 15% }[/math] — модель имеет низкое качество (нужно пересмотреть)

Пример: Если средняя ошибка аппроксимации равна 8%, это означает, что в среднем предсказанные значения отличаются от фактических на 8%. Это считается хорошим результатом.

Таблица всех основных формул

+ Краткая справка по формулам
Показатель Формула Единицы измерения Назначение

- Выборочное среднее - Выборочная дисперсия - Стандартное отклонение - Коэффициент вариации - Коэффициент корреляции - Ошибка аппроксимации (одна) - Средняя ошибка аппроксимации }

Мои наблюдения при изучении этих формул

Первое наблюдение: Важность выбора правильного n

При вычислении дисперсии нужно помнить, что в знаменателе стоит (n-1), а не просто n. Это кажется маленькой деталью, но это очень важно для несмещённой оценки. Когда я впервые посчитал дисперсию двумя способами (с n и с n-1), получились разные результаты — с n-1 результат был более точным при использовании выборочных данных.

Второе наблюдение: Корреляция не означает причинно-следственную связь

Коэффициент корреляции показывает только связь между переменными, но не показывает, что одна переменная вызывает изменение другой. Например, может быть очень сильная корреляция между количеством мороженого, продаваемого летом, и количеством утопленников, но это не значит, что мороженое вызывает утопления. Просто обе переменные зависят от тепла.

Третье наблюдение: Средняя ошибка аппроксимации — главный критерий качества

Из всех показателей качества модели, средняя ошибка аппроксимации — это самый простой и интуитивный показатель. Если ошибка 5%, это значит, что модель ошибается в среднем на 5%, что очень просто объяснить любому, даже если он не знает статистику. Поэтому её так часто используют на практике.

Практический пример расчёта

Предположим, у нас есть данные о доходе (в тысячах рублей): 50, 60, 55, 70, 65.

Шаг 1: Выборочное среднее

[math]\displaystyle{ \bar{x} = \frac{50 + 60 + 55 + 70 + 65}{5} = \frac{300}{5} = 60 }[/math]

Средний доход — 60 тыс. рублей.

Шаг 2: Выборочная дисперсия

Сначала считаем отклонения от среднего и возводим в квадрат:

(50 - 60)² = 100

(60 - 60)² = 0

(55 - 60)² = 25

(70 - 60)² = 100

(65 - 60)² = 25

[math]\displaystyle{ s^2 = \frac{100 + 0 + 25 + 100 + 25}{5 - 1} = \frac{250}{4} = 62,5 }[/math]

Шаг 3: Стандартное отклонение

[math]\displaystyle{ s = \sqrt{62,5} \approx 7,9 }[/math] тыс. рублей

Доход отклоняется от среднего примерно на 7,9 тыс. рублей.

Шаг 4: Коэффициент вариации

[math]\displaystyle{ V = \frac{7,9}{60} \times 100% \approx 13,2% }[/math]

Вариабельность доходов составляет примерно 13%, что считается умеренной.

Выводы

Вывод 1: Эти формулы — основа анализа данных

Выборочное среднее, дисперсия, корреляция и ошибка аппроксимации — это не просто математические формулы. Это инструменты, которые позволяют нам понять закономерности в данных и оценить качество моделей, которые мы строим.

Вывод 2: Для правильного применения нужно понимать смысл

Просто подставлять числа в формулы — недостаточно. Нужно понимать, что означает каждый показатель и как его интерпретировать. Например, коэффициент корреляции 0,8 — это хорошо или плохо? Ответ зависит от контекста и того, какие значения обычны для этой пары переменных.

Вывод 3: Разные показатели дают разную информацию

Одного показателя недостаточно. Например, две выборки могут иметь одинаковое среднее, но разную дисперсию. Две пары переменных могут иметь одинаковую корреляцию, но совершенно разные наклоны в регрессионной линии. Нужно смотреть на несколько показателей одновременно.

Вывод 4: В эконометрике качество модели зависит от многих факторов

Даже если средняя ошибка аппроксимации низкая, это не гарантирует, что модель правильна. Может быть переобучение, может быть пропущена важная переменная, может быть нарушены предположения модели. Поэтому нужна комплексная оценка.

Ссылки

Выборочное среднее — основной показатель центральной тенденции

Выборочная дисперсия — мера разброса данных

Коэффициент корреляции — мера связи между переменными

Эконометрика — применение статистики в экономике

Регрессионный анализ — построение моделей

Статистика — наука об анализе данных

Категории