P-value
| Описание | P-value (P-значение, p-уровень значимости) — это вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (по сравнению с наблюдаемым), при условии, что нулевая гипотеза верна. В контексте регрессионного анализа и эконометрики p-value используется для оценки статистической значимости коэффициентов регрессии. Оно помогает ответить на вопрос: «Действительно ли переменная-предиктор оказывает влияние на зависимую переменную, или наблюдаемая связь является результатом случайности?» |
|---|---|
| Область знаний | Статистика |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия | NetLogo, R, CODAP, Регрессионная модель, Language Change |
В частотном подходе к вероятности p-value определяет наименьший уровень значимости, при котором можно отвергнуть нулевую гипотезу ([math]\displaystyle{ H_0 }[/math]).
- [math]\displaystyle{ H_0 }[/math] (Нулевая гипотеза): Обычно утверждает отсутствие эффекта (например, коэффициент регрессии равен нулю).
- [math]\displaystyle{ H_1 }[/math] (Альтернативная гипотеза): Утверждает наличие эффекта.
Для интерпретации часто используют пороговый уровень значимости [math]\displaystyle{ \alpha }[/math] (обычно 0.05, 0.01 или 0.1):
- Если [math]\displaystyle{ p\text{-value} \lt \alpha }[/math]: Отвергаем [math]\displaystyle{ H_0 }[/math]. Результат считается статистически значимым.
- Если [math]\displaystyle{ p\text{-value} \geq \alpha }[/math]: Нет оснований отвергнуть [math]\displaystyle{ H_0 }[/math]. Результат не является статистически значимым.
В контексте проверки гипотез для коэффициентов регрессии, мы часто используем t-статистику. Для оценки значимости коэффициента [math]\displaystyle{ \beta_j }[/math] гипотезы формулируются так:
- [math]\displaystyle{ H_0: \beta_j = 0 }[/math]
- [math]\displaystyle{ H_1: \beta_j \neq 0 }[/math]
T-статистика рассчитывается как отношение оценки коэффициента к его стандартной ошибке: [math]\displaystyle{ t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} }[/math]
P-value — это вероятность того, что случайная величина [math]\displaystyle{ T }[/math], имеющая распределение Стьюдента, примет значение по модулю большее, чем наблюдаемое значение статистики [math]\displaystyle{ |t_{obs}| }[/math]:
[math]\displaystyle{ p\text{-value} = P(|T| \gt |t_{obs}|) = 2 \cdot (1 - F_{t}(|t_{obs}|)) }[/math]
В среде статистических вычислений R p-value рассчитывается автоматически при вызове функции summary() для объекта модели. Регрессионная модель:
model_1 <- lm(LCI ~ alpha + gamma + IsLogistic + StartPercent, data = data)
summary(model_1)
P-value как площадь: В StatKey p-value не рассчитывается по формуле интеграла, а вычисляется эмпирически. Программа генерирует тысячи случайных выборок (нулевое распределение) и строит из них точечный график.
