Confidence Interval
| Описание | Доверительный интервал (англ. Confidence Interval, CI) — это диапазон значений, который с заданной вероятностью (обычно 95%) содержит истинное значение неизвестного параметра генеральной совокупности, основанный на данных выборки. |
|---|---|
| Область знаний | |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия |
- Пример
- если мы хотим узнать среднюю удовлетворенность учителей в системе образования Москвы:
- Точечная оценка: "средняя удовлетворенность = 0.557"
- Доверительный интервал: "средняя удовлетворенность находится в диапазоне [0.554, 0.561] с вероятностью 95%
Математическое определение
Пусть [math]\displaystyle{ \theta }[/math] — неизвестный параметр (например, среднее значение [math]\displaystyle{ \mu }[/math]), и [math]\displaystyle{ \mathbf{X} = (X_1, X_2, \ldots, X_n) }[/math] — выборка данных.
Доверительный интервал уровня доверия [math]\displaystyle{ \alpha }[/math] (обычно [math]\displaystyle{ \alpha = 0.95 }[/math]) — это интервал [math]\displaystyle{ [L(\mathbf{X}), U(\mathbf{X})] }[/math], где:
[math]\displaystyle{ P(L(\mathbf{X}) \leq \theta \leq U(\mathbf{X})) \geq 1 - \alpha }[/math]
Интерпретация: если повторить эксперимент много раз и построить доверительный интервал для каждого, то примерно [math]\displaystyle{ (1-\alpha) \times 100 }[/math]% этих интервалов будут содержать истинное значение [math]\displaystyle{ \theta }[/math].
Интервал для среднего (параметрический)
Если данные нормально распределены, доверительный интервал для среднего [math]\displaystyle{ \mu }[/math]:
[math]\displaystyle{ CI = \bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} }[/math]
- где
- [math]\displaystyle{ \bar{X} }[/math] — выборочное среднее
- [math]\displaystyle{ t_{\alpha/2, n-1} }[/math] — критическое значение t-распределения Стьюдента
- [math]\displaystyle{ s }[/math] — выборочное стандартное отклонение
- [math]\displaystyle{ n }[/math] — размер выборки
= Интервал через бутстрэп (непараметрический)
Для любого параметра (не только среднего) и без предположения о нормальности:
[math]\displaystyle{ CI_{\text{perc}} = [F^{-1}_{\hat{\theta}^*}(\alpha/2), F^{-1}_{\hat{\theta}^*}(1-\alpha/2)] }[/math]
где [math]\displaystyle{ F_{\hat{\theta}^*} }[/math] — эмпирическое распределение бутстрэп-статистик [math]\displaystyle{ \hat{\theta}^* }[/math].
Процесс бутстрэпа
- Из исходной выборки размером [math]\displaystyle{ n }[/math] извлекаем [math]\displaystyle{ B }[/math] выборок с возвращением (обычно [math]\displaystyle{ B = 5000 }[/math])
- Для каждой бутстрэп-выборки вычисляем статистику [math]\displaystyle{ \hat{\theta}^*_b }[/math]
- Сортируем полученные значения <math>\{\hat{\theta}^*_1, \ldots, \hat{\theta}^*_B\}$
