|
|
| Строка 1: |
Строка 1: |
| == Основные статистические характеристики выборки в эконометрике Кокотанов АБП-231 ==
| | {{UserMGPU |
| | | |Description=Студент 3-го курса бакалавриата по направлению 38.03.05 Бизнес-информатика |
| {| class="wikitable" style="margin: 1em auto; text-align: center;"
| | Московского городского педагогического университета (МГПУ) |
| | | |Field_of_knowledge=Математика, Искусственный интеллект, Спорт |
| + Описание темы
| | |similar_concepts=Экономика, Финансы |
| ! Параметр !! Значение
| | |Environment=SQL, ChatGPT, Qwen, VSCode |
| -
| | |Position=Бакалавриат |
| Предмет
| | |Profile=Математика, Информатика, Экономика |
| -
| | |PedDirection=Нет |
| Тема
| | |Community=МГПУ |
| -
| | |Виды_спорта=Волейбол |
| Формулы
| | |Working_On=Эксперименты с моделью FIRE |
| -
| | }} |
| Область применения
| | ---- |
| }
| | См. - [[Участник:Kokotanov ABP231]] |
| | | ---- |
| == Введение ==
| |
| | |
| В эконометрике постоянно используются формулы, которые описывают '''статистические характеристики выборки''': выборочное среднее, выборочная дисперсия, коэффициент корреляции и средняя ошибка аппроксимации. Эти показатели помогают описать данные, измерить разброс значений и качество эконометрической модели.
| |
| | |
| Я изучал эти формулы, потому что они являются фундаментом для понимания того, как работают эконометрические модели и как оценивается их точность. Они встречаются в курсах по статистике, анализу данных и эконометрике.
| |
| | |
| == Выборочное среднее ==
| |
| | |
| Выборочное среднее показывает «средний уровень» признака в выборке и является аналогом обычного среднего арифметического.
| |
| | |
| === Для несгруппированных данных ===
| |
| | |
| Формула выборочного среднего для несгруппированных данных:
| |
| | |
| [math]\displaystyle{ \bar{x} = \frac{x_1 + x_2 + \ldots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n} }[/math]
| |
| | |
| где:
| |
| | |
| [math]\displaystyle{ \bar{x} }[/math] — выборочное среднее
| |
| | |
| [math]\displaystyle{ x_i }[/math] — i-е наблюдение в выборке
| |
| | |
| [math]\displaystyle{ n }[/math] — объём выборки (количество наблюдений)
| |
| | |
| [math]\displaystyle{ \sum }[/math] — знак суммирования
| |
| | |
| '''Интерпретация:''' Если у нас есть 5 студентов с оценками 4, 5, 3, 4, 4, то среднее будет (4+5+3+4+4)/5 = 4.
| |
| | |
| === Для сгруппированных данных ===
| |
| | |
| Если данные сгруппированы (одно значение повторяется несколько раз), используют формулу с учётом частот:
| |
| | |
| [math]\displaystyle{ \bar{x} = \frac{f_1 x_1 + f_2 x_2 + \ldots + f_k x_k}{f_1 + f_2 + \ldots + f_k} = \frac{\sum_{i=1}^{k} f_i x_i}{\sum_{i=1}^{k} f_i} }[/math]
| |
| | |
| где:
| |
| | |
| [math]\displaystyle{ f_i }[/math] — частота (сколько раз встретилось значение [math]\displaystyle{ x_i }[/math])
| |
| | |
| [math]\displaystyle{ k }[/math] — количество различных значений
| |
| | |
| '''Пример:''' Если оценка 3 встречается 1 раз, оценка 4 встречается 3 раза, оценка 5 встречается 1 раз, то среднее будет (1·3 + 3·4 + 1·5)/(1+3+1) = 16/5 = 3,2.
| |
| | |
| === Для интервальных данных ===
| |
| | |
| Для интервальных данных (когда значения сгруппированы в классы или интервалы) применяется формула:
| |
| | |
| [math]\displaystyle{ \bar{x} = \frac{\sum_{i=1}^{k} f_i m_i}{\sum_{i=1}^{k} f_i} }[/math]
| |
| | |
| где [math]\displaystyle{ m_i }[/math] — середина i-го интервала (класса), [math]\displaystyle{ f_i }[/math] — частота в этом интервале.
| |
| | |
| == Выборочная дисперсия ==
| |
| | |
| Выборочная дисперсия показывает, насколько сильно элементы выборки отклоняются от среднего. Это мера разброса данных вокруг среднего значения.
| |
| | |
| === Формула дисперсии ===
| |
| | |
| Формула выборочной дисперсии:
| |
| | |
| [math]\displaystyle{ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1} }[/math]
| |
| | |
| где:
| |
| | |
| [math]\displaystyle{ s^2 }[/math] — выборочная дисперсия
| |
| | |
| [math]\displaystyle{ x_i }[/math] — i-ое значение в выборке
| |
| | |
| [math]\displaystyle{ \bar{x} }[/math] — выборочное среднее
| |
| | |
| [math]\displaystyle{ n }[/math] — размер выборки
| |
| | |
| [math]\displaystyle{ \sum }[/math] — знак суммы элементов
| |
| | |
| '''Важно:''' В знаменателе стоит (n-1), а не n. Это называется несмещённой оценкой дисперсии и используется в выборочной статистике.
| |
| | |
| === Альтернативная формула для расчёта ===
| |
| | |
| Для упрощения ручного вычисления можно использовать эквивалентную формулу:
| |
| | |
| [math]\displaystyle{ s^2 = \frac{1}{n - 1} \left( \sum_{i=1}^{n} x_i^2 - \frac{\left(\sum_{i=1}^{n} x_i\right)^2}{n} \right) }[/math]
| |
| | |
| Эта форма удобна для ручных расчётов и часто встречается в учебниках.
| |
| | |
| === Стандартное отклонение ===
| |
| | |
| Выборочная дисперсия измеряется в квадратах единиц измерения исходных данных. Для получения меры разброса в тех же единицах, что и исходные данные, используется стандартное отклонение (среднеквадратическое отклонение):
| |
| | |
| [math]\displaystyle{ s = \sqrt{s^2} }[/math]
| |
| | |
| '''Интерпретация:''' Если дисперсия доходов равна 2500 (тыс. рублей)², то стандартное отклонение равно 50 тыс. рублей, что означает: в среднем доход отклоняется от средней величины на 50 тыс. рублей.
| |
| | |
| == Коэффициент вариации == | |
| | |
| Коэффициент вариации показывает относительный разброс данных (в процентах). Это удобно для сравнения вариабельности разных показателей с разными единицами измерения.
| |
| | |
| === Формула коэффициента вариации ===
| |
| | |
| [math]\displaystyle{ V = \frac{s}{\bar{x}} \times 100% }[/math]
| |
| | |
| где:
| |
| | |
| [math]\displaystyle{ V }[/math] — коэффициент вариации (в процентах)
| |
| | |
| [math]\displaystyle{ s }[/math] — стандартное отклонение
| |
| | |
| [math]\displaystyle{ \bar{x} }[/math] — выборочное среднее
| |
| | |
| '''Интерпретация:'''
| |
| | |
| V < 10% — слабая вариабельность (данные однородны)
| |
| | |
| V = 10%-25% — умеренная вариабельность
| |
| | |
| V > 25% — высокая вариабельность (данные разнородны)
| |
| | |
| == Выборочный коэффициент корреляции ==
| |
| | |
| В эконометрике часто анализируют связь между двумя признаками, например, доход и потребление, цена и спрос. Для этого используют коэффициент корреляции.
| |
| | |
| === Формула линейного коэффициента корреляции === | |
| | |
| [math]\displaystyle{ r_{xy} = \frac{\operatorname{cov}(x, y)}{\sigma_x \cdot \sigma_y} }[/math]
| |
| | |
| где:
| |
| | |
| [math]\displaystyle{ r_{xy} }[/math] — выборочный коэффициент корреляции
| |
| | |
| [math]\displaystyle{ \operatorname{cov}(x, y) }[/math] — выборочная ковариация двух переменных
| |
| | |
| [math]\displaystyle{ \sigma_x }[/math] и [math]\displaystyle{ \sigma_y }[/math] — выборочные среднеквадратические отклонения
| |
| | |
| === Альтернативная формула через суммы ===
| |
| | |
| На практике коэффициент корреляции часто считают так:
| |
| | |
| [math]\displaystyle{ r_{xy} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{\sqrt{(n \sum x_i^2 - (\sum x_i)^2)(n \sum y_i^2 - (\sum y_i)^2)}} }[/math]
| |
| | |
| === Интерпретация коэффициента корреляции ===
| |
| | |
| Коэффициент корреляции принимает значения от –1 до +1:
| |
| | |
| {| class="wikitable" style="margin: 1em auto;"
| |
| | |
| + Интерпретация коэффициента корреляции
| |
| ! Значение !! Интерпретация
| |
| -
| |
| [math]\displaystyle{ r_{xy} \approx 1 }[/math]
| |
| -
| |
| [math]\displaystyle{ 0,7 < r_{xy} < 1 }[/math]
| |
| -
| |
| [math]\displaystyle{ 0,3 < r_{xy} < 0,7 }[/math]
| |
| -
| |
| [math]\displaystyle{ 0 < r_{xy} < 0,3 }[/math]
| |
| -
| |
| [math]\displaystyle{ r_{xy} \approx 0 }[/math]
| |
| -
| |
| [math]\displaystyle{ -0,3 < r_{xy} < 0 }[/math]
| |
| -
| |
| [math]\displaystyle{ -0,7 < r_{xy} < -0,3 }[/math]
| |
| - | |
| [math]\displaystyle{ -1 < r_{xy} < -0,7 }[/math]
| |
| - | |
| [math]\displaystyle{ r_{xy} \approx -1 }[/math]
| |
| }
| |
| '''Примеры:'''
| |
| | |
| Если [math]\displaystyle{ r_{xy} = 0,85 }[/math] — между доходом и потреблением есть сильная положительная связь (при росте дохода потребление растёт)
| |
| | |
| Если [math]\displaystyle{ r_{xy} = -0,65 }[/math] — между ценой и спросом есть средняя отрицательная связь (при росте цены спрос уменьшается)
| |
| | |
| == Средняя ошибка аппроксимации ==
| |
| | |
| Средняя ошибка аппроксимации оценивает качество эконометрической модели — насколько хорошо теоретические (расчётные) значения модели приближают фактические значения.
| |
| | |
| === Формула относительной ошибки для одного наблюдения ===
| |
| | |
| Для каждого наблюдения считают относительную ошибку аппроксимации (по модулю):
| |
| | |
| [math]\displaystyle{ A_i = \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100% }[/math]
| |
| | |
| где:
| |
| | |
| [math]\displaystyle{ y_i }[/math] — фактическое (наблюдаемое) значение зависимой переменной | |
| | |
| [math]\displaystyle{ \hat{y}_i }[/math] — расчётное (предсказанное) значение, полученное по модели
| |
| | |
| Модуль (абсолютное значение) нужен, чтобы избежать взаимной компенсации положительных и отрицательных ошибок
| |
| | |
| === Формула средней ошибки аппроксимации ===
| |
| | |
| Средняя ошибка аппроксимации — это простое среднее этих относительных ошибок:
| |
| | |
| [math]\displaystyle{ \bar{A} = \frac{1}{n} \sum_{i=1}^{n} A_i = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100% }[/math]
| |
| | |
| где [math]\displaystyle{ n }[/math] — количество наблюдений в выборке.
| |
| | |
| === Интерпретация и допустимые пределы ===
| |
| | |
| '''Интерпретация:''' Средняя ошибка аппроксимации показывает, на сколько процентов в среднем расчётные значения отклоняются от фактических.
| |
| | |
| [math]\displaystyle{ \bar{A} \leq 5% }[/math] — модель имеет отличное качество
| |
| | |
| [math]\displaystyle{ 5% < \bar{A} \leq 10% }[/math] — модель имеет хорошее качество (допустимо)
| |
| | |
| [math]\displaystyle{ 10% < \bar{A} \leq 15% }[/math] — модель имеет приемлемое качество
| |
| | |
| [math]\displaystyle{ \bar{A} > 15% }[/math] — модель имеет низкое качество (нужно пересмотреть)
| |
| | |
| '''Пример:''' Если средняя ошибка аппроксимации равна 8%, это означает, что в среднем предсказанные значения отличаются от фактических на 8%. Это считается хорошим результатом.
| |
| | |
| == Таблица всех основных формул ==
| |
| | |
| {| class="wikitable" style="margin: 1em auto;"
| |
| | |
| + Краткая справка по формулам
| |
| ! Показатель !! Формула !! Единицы измерения !! Назначение
| |
| -
| |
| Выборочное среднее
| |
| -
| |
| Выборочная дисперсия
| |
| -
| |
| Стандартное отклонение
| |
| -
| |
| Коэффициент вариации
| |
| -
| |
| Коэффициент корреляции
| |
| -
| |
| Ошибка аппроксимации (одна)
| |
| -
| |
| Средняя ошибка аппроксимации
| |
| }
| |
| == Мои наблюдения при изучении этих формул ==
| |
| | |
| === Первое наблюдение: Важность выбора правильного n ===
| |
| | |
| При вычислении дисперсии нужно помнить, что в знаменателе стоит (n-1), а не просто n. Это кажется маленькой деталью, но это очень важно для несмещённой оценки. Когда я впервые посчитал дисперсию двумя способами (с n и с n-1), получились разные результаты — с n-1 результат был более точным при использовании выборочных данных.
| |
| | |
| === Второе наблюдение: Корреляция не означает причинно-следственную связь ===
| |
| | |
| Коэффициент корреляции показывает только связь между переменными, но не показывает, что одна переменная вызывает изменение другой. Например, может быть очень сильная корреляция между количеством мороженого, продаваемого летом, и количеством утопленников, но это не значит, что мороженое вызывает утопления. Просто обе переменные зависят от тепла.
| |
| | |
| === Третье наблюдение: Средняя ошибка аппроксимации — главный критерий качества ===
| |
| | |
| Из всех показателей качества модели, средняя ошибка аппроксимации — это самый простой и интуитивный показатель. Если ошибка 5%, это значит, что модель ошибается в среднем на 5%, что очень просто объяснить любому, даже если он не знает статистику. Поэтому её так часто используют на практике.
| |
| | |
| == Практический пример расчёта ==
| |
| | |
| Предположим, у нас есть данные о доходе (в тысячах рублей): 50, 60, 55, 70, 65.
| |
| | |
| '''Шаг 1: Выборочное среднее'''
| |
| | |
| [math]\displaystyle{ \bar{x} = \frac{50 + 60 + 55 + 70 + 65}{5} = \frac{300}{5} = 60 }[/math]
| |
| | |
| Средний доход — 60 тыс. рублей.
| |
| | |
| '''Шаг 2: Выборочная дисперсия'''
| |
| | |
| Сначала считаем отклонения от среднего и возводим в квадрат:
| |
| | |
| (50 - 60)² = 100
| |
| | |
| (60 - 60)² = 0
| |
| | |
| (55 - 60)² = 25
| |
| | |
| (70 - 60)² = 100
| |
| | |
| (65 - 60)² = 25
| |
| | |
| [math]\displaystyle{ s^2 = \frac{100 + 0 + 25 + 100 + 25}{5 - 1} = \frac{250}{4} = 62,5 }[/math]
| |
| | |
| '''Шаг 3: Стандартное отклонение'''
| |
| | |
| [math]\displaystyle{ s = \sqrt{62,5} \approx 7,9 }[/math] тыс. рублей
| |
| | |
| Доход отклоняется от среднего примерно на 7,9 тыс. рублей.
| |
| | |
| '''Шаг 4: Коэффициент вариации'''
| |
| | |
| [math]\displaystyle{ V = \frac{7,9}{60} \times 100% \approx 13,2% }[/math]
| |
| | |
| Вариабельность доходов составляет примерно 13%, что считается умеренной.
| |
| | |
| == Выводы ==
| |
| | |
| === Вывод 1: Эти формулы — основа анализа данных ===
| |
| | |
| Выборочное среднее, дисперсия, корреляция и ошибка аппроксимации — это не просто математические формулы. Это инструменты, которые позволяют нам понять закономерности в данных и оценить качество моделей, которые мы строим.
| |
| | |
| === Вывод 2: Для правильного применения нужно понимать смысл ===
| |
| | |
| Просто подставлять числа в формулы — недостаточно. Нужно понимать, что означает каждый показатель и как его интерпретировать. Например, коэффициент корреляции 0,8 — это хорошо или плохо? Ответ зависит от контекста и того, какие значения обычны для этой пары переменных.
| |
| | |
| === Вывод 3: Разные показатели дают разную информацию ===
| |
| | |
| Одного показателя недостаточно. Например, две выборки могут иметь одинаковое среднее, но разную дисперсию. Две пары переменных могут иметь одинаковую корреляцию, но совершенно разные наклоны в регрессионной линии. Нужно смотреть на несколько показателей одновременно.
| |
| | |
| === Вывод 4: В эконометрике качество модели зависит от многих факторов ===
| |
| | |
| Даже если средняя ошибка аппроксимации низкая, это не гарантирует, что модель правильна. Может быть переобучение, может быть пропущена важная переменная, может быть нарушены предположения модели. Поэтому нужна комплексная оценка.
| |
| | |
| == Ссылки ==
| |
| | |
| [[Выборочное среднее]] — основной показатель центральной тенденции
| |
| | |
| [[Выборочная дисперсия]] — мера разброса данных
| |
| | |
| [[Коэффициент корреляции]] — мера связи между переменными
| |
| | |
| [[Эконометрика]] — применение статистики в экономике
| |
| | |
| [[Регрессионный анализ]] — построение моделей
| |
| | |
| [[Статистика]] — наука об анализе данных
| |
| | |
| | |
| | |
|
| |
|
| [[Категория:UserMGPU]] | | [[Категория:UserMGPU]] |
| [[Категория:АБП-231]] | | [[Категория:АБП-231]] |