P-value

Материал из Поле цифровой дидактики


Описание P-value (P-значение, p-уровень значимости) — это вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (по сравнению с наблюдаемым), при условии, что нулевая гипотеза верна. В контексте регрессионного анализа и эконометрики p-value используется для оценки статистической значимости коэффициентов регрессии. Оно помогает ответить на вопрос: «Действительно ли переменная-предиктор оказывает влияние на зависимую переменную, или наблюдаемая связь является результатом случайности?»
Область знаний Статистика
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия NetLogo, R, CODAP, Регрессионная модель, Language Change

В частотном подходе к вероятности p-value определяет наименьший уровень значимости, при котором можно отвергнуть нулевую гипотезу ([math]\displaystyle{ H_0 }[/math]).

  • [math]\displaystyle{ H_0 }[/math] (Нулевая гипотеза): Обычно утверждает отсутствие эффекта (например, коэффициент регрессии равен нулю).
  • [math]\displaystyle{ H_1 }[/math] (Альтернативная гипотеза): Утверждает наличие эффекта.

Для интерпретации часто используют пороговый уровень значимости [math]\displaystyle{ \alpha }[/math] (обычно 0.05, 0.01 или 0.1):

  1. Если [math]\displaystyle{ p\text{-value} \lt \alpha }[/math]: Отвергаем [math]\displaystyle{ H_0 }[/math]. Результат считается статистически значимым.
  2. Если [math]\displaystyle{ p\text{-value} \geq \alpha }[/math]: Нет оснований отвергнуть [math]\displaystyle{ H_0 }[/math]. Результат не является статистически значимым.

В контексте проверки гипотез для коэффициентов регрессии, мы часто используем t-статистику. Для оценки значимости коэффициента [math]\displaystyle{ \beta_j }[/math] гипотезы формулируются так:

  • [math]\displaystyle{ H_0: \beta_j = 0 }[/math]
  • [math]\displaystyle{ H_1: \beta_j \neq 0 }[/math]

T-статистика рассчитывается как отношение оценки коэффициента к его стандартной ошибке: [math]\displaystyle{ t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} }[/math]

P-value — это вероятность того, что случайная величина [math]\displaystyle{ T }[/math], имеющая распределение Стьюдента, примет значение по модулю большее, чем наблюдаемое значение статистики [math]\displaystyle{ |t_{obs}| }[/math]:

[math]\displaystyle{ p\text{-value} = P(|T| \gt |t_{obs}|) = 2 \cdot (1 - F_{t}(|t_{obs}|)) }[/math]

В среде статистических вычислений R p-value рассчитывается автоматически при вызове функции summary() для объекта модели. Регрессионная модель:

model_1 <- lm(LCI ~ alpha + gamma + IsLogistic + StartPercent, data = data)
summary(model_1)

P-value как площадь: В StatKey p-value не рассчитывается по формуле интеграла, а вычисляется эмпирически. Программа генерирует тысячи случайных выборок (нулевое распределение) и строит из них точечный график.