Confidence Interval

Материал из Поле цифровой дидактики


Описание Доверительный интервал (англ. Confidence Interval, CI) — это диапазон значений, который с заданной вероятностью (обычно 95%) содержит истинное значение неизвестного параметра генеральной совокупности, основанный на данных выборки.
Область знаний
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия
Пример
если мы хотим узнать среднюю удовлетворенность учителей в системе образования Москвы:
  • Точечная оценка: "средняя удовлетворенность = 0.557"
  • Доверительный интервал: "средняя удовлетворенность находится в диапазоне [0.554, 0.561] с вероятностью 95%

Математическое определение

Пусть [math]\displaystyle{ \theta }[/math] — неизвестный параметр (например, среднее значение [math]\displaystyle{ \mu }[/math]), и [math]\displaystyle{ \mathbf{X} = (X_1, X_2, \ldots, X_n) }[/math] — выборка данных.

Доверительный интервал уровня доверия [math]\displaystyle{ \alpha }[/math] (обычно [math]\displaystyle{ \alpha = 0.95 }[/math]) — это интервал [math]\displaystyle{ [L(\mathbf{X}), U(\mathbf{X})] }[/math], где:

[math]\displaystyle{ P(L(\mathbf{X}) \leq \theta \leq U(\mathbf{X})) \geq 1 - \alpha }[/math]

Интерпретация: если повторить эксперимент много раз и построить доверительный интервал для каждого, то примерно [math]\displaystyle{ (1-\alpha) \times 100 }[/math]% этих интервалов будут содержать истинное значение [math]\displaystyle{ \theta }[/math].

Интервал для среднего (параметрический)

Если данные нормально распределены, доверительный интервал для среднего [math]\displaystyle{ \mu }[/math]:

[math]\displaystyle{ CI = \bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} }[/math]

где
  • [math]\displaystyle{ \bar{X} }[/math] — выборочное среднее
  • [math]\displaystyle{ t_{\alpha/2, n-1} }[/math] — критическое значение t-распределения Стьюдента
  • [math]\displaystyle{ s }[/math] — выборочное стандартное отклонение
  • [math]\displaystyle{ n }[/math] — размер выборки

= Интервал через бутстрэп (непараметрический)

Для любого параметра (не только среднего) и без предположения о нормальности:

[math]\displaystyle{ CI_{\text{perc}} = [F^{-1}_{\hat{\theta}^*}(\alpha/2), F^{-1}_{\hat{\theta}^*}(1-\alpha/2)] }[/math]

где [math]\displaystyle{ F_{\hat{\theta}^*} }[/math] — эмпирическое распределение бутстрэп-статистик [math]\displaystyle{ \hat{\theta}^* }[/math].

Процесс бутстрэпа

  1. Из исходной выборки размером [math]\displaystyle{ n }[/math] извлекаем [math]\displaystyle{ B }[/math] выборок с возвращением (обычно [math]\displaystyle{ B = 5000 }[/math])
  2. Для каждой бутстрэп-выборки вычисляем статистику [math]\displaystyle{ \hat{\theta}^*_b }[/math]
  3. Сортируем полученные значения <math>\{\hat{\theta}^*_1, \ldots, \hat{\theta}^*_B\}$