Confidence Interval: различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
 
(не показано 14 промежуточных версий этого же участника)
Строка 1: Строка 1:
{{Понятие
{{Понятие
|Description='''Доверительный интервал''' (англ. Confidence Interval, CI) — это диапазон значений, который с заданной вероятностью (обычно 95%) содержит истинное значение неизвестного параметра генеральной совокупности, основанный на данных выборки.
|Description='''Доверительный интервал''' (англ. Confidence Interval, CI) — это диапазон значений, который с заданной вероятностью (обычно 95%) содержит истинное значение неизвестного параметра генеральной совокупности, основанный на данных выборки. Доверительный интервал — это '''мост между выборкой и популяцией'''. Вместо того, чтобы говорить "среднее = 0.557", мы говорим "среднее находится в интервале 0.554, 0.561" и это полезнее для принятия решений.
; Интерпретация в образовательном контексте
* '''Узкий CI''' например, (55%, 57%) = система стабильна, рекомендации надежны
* '''Широкий CI''' например, (40%, 70%) = высокая неопределенность, нужны дополнительные данные
* '''Непересекающиеся CI''' для разных групп = различия значимы, можно рекомендовать разные политики
|Field_of_knowledge=Экономика, Образование, Статистика
|Inventor=Нейман
|similar_concepts=Стандартная ошибка, Гипотеза, Центральная предельная теорема, Бутстрэп, Нулевая гипотеза
|Environment=StatKey
}}
}}
; Пример: если мы хотим узнать среднюю удовлетворенность учителей в системе образования Москвы:
=== Пример: ===
; если мы хотим узнать среднюю удовлетворенность учителей в системе образования Москвы:
* Точечная оценка: "средняя удовлетворенность = 0.557"
* Точечная оценка: "средняя удовлетворенность = 0.557"
* Доверительный интервал: "средняя удовлетворенность находится в диапазоне [0.554, 0.561] с вероятностью 95%
* Доверительный интервал: "средняя удовлетворенность находится в диапазоне [0.554, 0.561] с вероятностью 95%
Строка 28: Строка 37:
* <math>n</math> — размер выборки
* <math>n</math> — размер выборки


==== Интервал через [[бутстрэп]] (непараметрический) ===
=== Интервал через [[бутстрэп]] (непараметрический) ===


Для любого параметра (не только среднего) и без предположения о нормальности:
Для любого параметра (не только среднего) и без предположения о нормальности:
Строка 36: Строка 45:
где <math>F_{\hat{\theta}^*}</math> — эмпирическое распределение бутстрэп-статистик <math>\hat{\theta}^*</math>.
где <math>F_{\hat{\theta}^*}</math> — эмпирическое распределение бутстрэп-статистик <math>\hat{\theta}^*</math>.


==== Процесс бутстрэпа ===
=== Ширина доверительного интервала ===
# Из исходной выборки размером <math>n</math> извлекаем <math>B</math> выборок с возвращением (обычно <math>B = 5000</math>)
 
# Для каждой бутстрэп-выборки вычисляем статистику <math>\hat{\theta}^*_b</math>
Ширина интервала зависит от:
# Сортируем полученные значения <math>\{\hat{\theta}^*_1, \ldots, \hat{\theta}^*_B\}$
 
# Берём <math>\alpha/2</math>-й и <math>(1-\alpha/2)</math>-й перцентили
{| class="wikitable"
|-
! Фактор !! Влияние !! Формула
|-
| Размер выборки <math>n</math> || Больше <math>n</math> → уже интервал || <math>\text{Ширина} \propto \frac{1}{\sqrt{n}}</math>
|-
| Стандартное отклонение <math>\sigma</math> || Больше <math>\sigma</math> → шире интервал || <math>\text{Ширина} \propto \sigma</math>
|-
| Уровень доверия <math>1-\alpha</math> || 99% интервал шире 95% || <math>z_{0.005} > z_{0.025}</math>
|}

Текущая версия от 10:51, 10 января 2026


Описание Доверительный интервал (англ. Confidence Interval, CI) — это диапазон значений, который с заданной вероятностью (обычно 95%) содержит истинное значение неизвестного параметра генеральной совокупности, основанный на данных выборки. Доверительный интервал — это мост между выборкой и популяцией. Вместо того, чтобы говорить "среднее = 0.557", мы говорим "среднее находится в интервале 0.554, 0.561" и это полезнее для принятия решений.
Интерпретация в образовательном контексте
  • Узкий CI например, (55%, 57%) = система стабильна, рекомендации надежны
  • Широкий CI например, (40%, 70%) = высокая неопределенность, нужны дополнительные данные
  • Непересекающиеся CI для разных групп = различия значимы, можно рекомендовать разные политики
Область знаний Экономика, Образование, Статистика
Авторы Нейман
Поясняющее видео
Близкие понятия Стандартная ошибка, Гипотеза, Центральная предельная теорема, Бутстрэп, Нулевая гипотеза
Среды и средства для освоения понятия StatKey

Пример:

если мы хотим узнать среднюю удовлетворенность учителей в системе образования Москвы
  • Точечная оценка: "средняя удовлетворенность = 0.557"
  • Доверительный интервал: "средняя удовлетворенность находится в диапазоне [0.554, 0.561] с вероятностью 95%

Математическое определение

Пусть [math]\displaystyle{ \theta }[/math] — неизвестный параметр (например, среднее значение [math]\displaystyle{ \mu }[/math]), и [math]\displaystyle{ \mathbf{X} = (X_1, X_2, \ldots, X_n) }[/math] — выборка данных.

Доверительный интервал уровня доверия [math]\displaystyle{ \alpha }[/math] (обычно [math]\displaystyle{ \alpha = 0.95 }[/math]) — это интервал [math]\displaystyle{ [L(\mathbf{X}), U(\mathbf{X})] }[/math], где:

[math]\displaystyle{ P(L(\mathbf{X}) \leq \theta \leq U(\mathbf{X})) \geq 1 - \alpha }[/math]

Интерпретация: если повторить эксперимент много раз и построить доверительный интервал для каждого, то примерно [math]\displaystyle{ (1-\alpha) \times 100 }[/math]% этих интервалов будут содержать истинное значение [math]\displaystyle{ \theta }[/math].

Интервал для среднего (параметрический)

Если данные нормально распределены, доверительный интервал для среднего [math]\displaystyle{ \mu }[/math]:

[math]\displaystyle{ CI = \bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} }[/math]

где
  • [math]\displaystyle{ \bar{X} }[/math] — выборочное среднее
  • [math]\displaystyle{ t_{\alpha/2, n-1} }[/math] — критическое значение t-распределения Стьюдента
  • [math]\displaystyle{ s }[/math] — выборочное стандартное отклонение
  • [math]\displaystyle{ n }[/math] — размер выборки

Интервал через бутстрэп (непараметрический)

Для любого параметра (не только среднего) и без предположения о нормальности:

[math]\displaystyle{ CI_{\text{perc}} = [F^{-1}_{\hat{\theta}^*}(\alpha/2), F^{-1}_{\hat{\theta}^*}(1-\alpha/2)] }[/math]

где [math]\displaystyle{ F_{\hat{\theta}^*} }[/math] — эмпирическое распределение бутстрэп-статистик [math]\displaystyle{ \hat{\theta}^* }[/math].

Ширина доверительного интервала

Ширина интервала зависит от:

Фактор Влияние Формула
Размер выборки [math]\displaystyle{ n }[/math] Больше [math]\displaystyle{ n }[/math] → уже интервал [math]\displaystyle{ \text{Ширина} \propto \frac{1}{\sqrt{n}} }[/math]
Стандартное отклонение [math]\displaystyle{ \sigma }[/math] Больше [math]\displaystyle{ \sigma }[/math] → шире интервал [math]\displaystyle{ \text{Ширина} \propto \sigma }[/math]
Уровень доверия [math]\displaystyle{ 1-\alpha }[/math] 99% интервал шире 95% [math]\displaystyle{ z_{0.005} \gt z_{0.025} }[/math]