Confidence Interval
| Описание | Доверительный интервал (англ. Confidence Interval, CI) — это диапазон значений, который с заданной вероятностью (обычно 95%) содержит истинное значение неизвестного параметра генеральной совокупности, основанный на данных выборки. Доверительный интервал — это мост между выборкой и популяцией. Вместо того, чтобы говорить "среднее = 0.557", мы говорим "среднее находится в интервале 0.554, 0.561" и это полезнее для принятия решений.
|
|---|---|
| Область знаний | Экономика, Образование, Статистика |
| Авторы | Нейман |
| Поясняющее видео | |
| Близкие понятия | Стандартная ошибка, Гипотеза, Центральная предельная теорема, Бутстрэп, Нулевая гипотеза |
| Среды и средства для освоения понятия | StatKey |
Пример:
- если мы хотим узнать среднюю удовлетворенность учителей в системе образования Москвы
- Точечная оценка: "средняя удовлетворенность = 0.557"
- Доверительный интервал: "средняя удовлетворенность находится в диапазоне [0.554, 0.561] с вероятностью 95%
Математическое определение
Пусть [math]\displaystyle{ \theta }[/math] — неизвестный параметр (например, среднее значение [math]\displaystyle{ \mu }[/math]), и [math]\displaystyle{ \mathbf{X} = (X_1, X_2, \ldots, X_n) }[/math] — выборка данных.
Доверительный интервал уровня доверия [math]\displaystyle{ \alpha }[/math] (обычно [math]\displaystyle{ \alpha = 0.95 }[/math]) — это интервал [math]\displaystyle{ [L(\mathbf{X}), U(\mathbf{X})] }[/math], где:
[math]\displaystyle{ P(L(\mathbf{X}) \leq \theta \leq U(\mathbf{X})) \geq 1 - \alpha }[/math]
Интерпретация: если повторить эксперимент много раз и построить доверительный интервал для каждого, то примерно [math]\displaystyle{ (1-\alpha) \times 100 }[/math]% этих интервалов будут содержать истинное значение [math]\displaystyle{ \theta }[/math].
Интервал для среднего (параметрический)
Если данные нормально распределены, доверительный интервал для среднего [math]\displaystyle{ \mu }[/math]:
[math]\displaystyle{ CI = \bar{X} \pm t_{\alpha/2, n-1} \cdot \frac{s}{\sqrt{n}} }[/math]
- где
- [math]\displaystyle{ \bar{X} }[/math] — выборочное среднее
- [math]\displaystyle{ t_{\alpha/2, n-1} }[/math] — критическое значение t-распределения Стьюдента
- [math]\displaystyle{ s }[/math] — выборочное стандартное отклонение
- [math]\displaystyle{ n }[/math] — размер выборки
Интервал через бутстрэп (непараметрический)
Для любого параметра (не только среднего) и без предположения о нормальности:
[math]\displaystyle{ CI_{\text{perc}} = [F^{-1}_{\hat{\theta}^*}(\alpha/2), F^{-1}_{\hat{\theta}^*}(1-\alpha/2)] }[/math]
где [math]\displaystyle{ F_{\hat{\theta}^*} }[/math] — эмпирическое распределение бутстрэп-статистик [math]\displaystyle{ \hat{\theta}^* }[/math].
Ширина доверительного интервала
Ширина интервала зависит от:
| Фактор | Влияние | Формула |
|---|---|---|
| Размер выборки [math]\displaystyle{ n }[/math] | Больше [math]\displaystyle{ n }[/math] → уже интервал | [math]\displaystyle{ \text{Ширина} \propto \frac{1}{\sqrt{n}} }[/math] |
| Стандартное отклонение [math]\displaystyle{ \sigma }[/math] | Больше [math]\displaystyle{ \sigma }[/math] → шире интервал | [math]\displaystyle{ \text{Ширина} \propto \sigma }[/math] |
| Уровень доверия [math]\displaystyle{ 1-\alpha }[/math] | 99% интервал шире 95% | [math]\displaystyle{ z_{0.005} \gt z_{0.025} }[/math] |
