Confidence Interval

Материал из Поле цифровой дидактики
(перенаправлено с «CI»)


Описание Доверительный интервал (англ. Confidence Interval, CI) — это диапазон значений, который с заданной вероятностью (обычно 95%) содержит истинное значение неизвестного параметра генеральной совокупности, основанный на данных выборки. Доверительный интервал — это мост между выборкой и популяцией. Вместо того, чтобы говорить "среднее = 0.557", мы говорим "среднее находится в интервале 0.554, 0.561" и это полезнее для принятия решений.
Интерпретация в образовательном контексте
  • Узкий CI например, (55%, 57%) = система стабильна, рекомендации надежны
  • Широкий CI например, (40%, 70%) = высокая неопределенность, нужны дополнительные данные
  • Непересекающиеся CI для разных групп = различия значимы, можно рекомендовать разные политики
Область знаний Экономика, Образование, Статистика
Авторы Нейман
Поясняющее видео
Близкие понятия Стандартная ошибка, Гипотеза, Центральная предельная теорема, Бутстрэп, Нулевая гипотеза
Среды и средства для освоения понятия StatKey

Пример:

если мы хотим узнать среднюю удовлетворенность учителей в системе образования Москвы
  • Точечная оценка: "средняя удовлетворенность = 0.557"
  • Доверительный интервал: "средняя удовлетворенность находится в диапазоне [0.554, 0.561] с вероятностью 95%

Математическое определение

Пусть [math]\displaystyle{ \theta }[/math] — неизвестный параметр (например, среднее значение [math]\displaystyle{ \mu }[/math]), и [math]\displaystyle{ \mathbf{X} = (X_1, X_2, \ldots, X_n) }[/math] — выборка данных.

Доверительный интервал уровня доверия [math]\displaystyle{ \alpha }[/math] (обычно [math]\displaystyle{ \alpha = 0.95 }[/math]) — это интервал [math]\displaystyle{ [L(\mathbf{X}), U(\mathbf{X})] }[/math], где:

[math]\displaystyle{ P(L(\mathbf{X}) \leq \theta \leq U(\mathbf{X})) \geq 1 - \alpha }[/math]

Интерпретация: если повторить эксперимент много раз и построить доверительный интервал для каждого, то примерно [math]\displaystyle{ (1-\alpha) \times 100 }[/math]% этих интервалов будут содержать истинное значение [math]\displaystyle{ \theta }[/math].

Интервал для среднего (параметрический)

Если данные нормально распределены, доверительный интервал для среднего [math]\displaystyle{ \mu }[/math]:

[math]\displaystyle{ CI = \bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} }[/math]

где
  • [math]\displaystyle{ \bar{X} }[/math] — выборочное среднее
  • [math]\displaystyle{ t_{\alpha/2, n-1} }[/math] — критическое значение t-распределения Стьюдента
  • [math]\displaystyle{ s }[/math] — выборочное стандартное отклонение
  • [math]\displaystyle{ n }[/math] — размер выборки

Интервал через бутстрэп (непараметрический)

Для любого параметра (не только среднего) и без предположения о нормальности:

[math]\displaystyle{ CI_{\text{perc}} = [F^{-1}_{\hat{\theta}^*}(\alpha/2), F^{-1}_{\hat{\theta}^*}(1-\alpha/2)] }[/math]

где [math]\displaystyle{ F_{\hat{\theta}^*} }[/math] — эмпирическое распределение бутстрэп-статистик [math]\displaystyle{ \hat{\theta}^* }[/math].

Ширина доверительного интервала

Ширина интервала зависит от:

Фактор Влияние Формула
Размер выборки [math]\displaystyle{ n }[/math] Больше [math]\displaystyle{ n }[/math] → уже интервал [math]\displaystyle{ \text{Ширина} \propto \frac{1}{\sqrt{n}} }[/math]
Стандартное отклонение [math]\displaystyle{ \sigma }[/math] Больше [math]\displaystyle{ \sigma }[/math] → шире интервал [math]\displaystyle{ \text{Ширина} \propto \sigma }[/math]
Уровень доверия [math]\displaystyle{ 1-\alpha }[/math] 99% интервал шире 95% [math]\displaystyle{ z_{0.005} \gt z_{0.025} }[/math]