Коэффициент корреляции

Материал из Поле цифровой дидактики


Описание Коэффициент корреляции (correlation coefficient) — статистическая мера, количественно определяющая силу и направление линейной или монотонной взаимосвязи между двумя переменными. Коэффициент корреляции принимает значения от −1 до +1, где значения близкие к +1 указывают на сильную положительную связь, значения близкие к −1 — на сильную отрицательную связь, а значения около 0 свидетельствуют об отсутствии линейной взаимосвязи.
Область знаний Экономика, Управление, Статистика, Моделирование
Авторы Пирсон
Поясняющее видео
Близкие понятия Корреляция
Среды и средства для освоения понятия R


Математическое определение: Для двух случайных величин X и Y коэффициент корреляции представляет собой стандартизованную меру их ковариации:

[math]\displaystyle{ r = \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y} }[/math]

где [math]\displaystyle{ Cov(X,Y) }[/math] — ковариация переменных X и Y, [math]\displaystyle{ \sigma_X }[/math]


Основные типы коэффициентов корреляции

Коэффициент корреляции Пирсона (Pearson's r)

Коэффициент корреляции Пирсона (Pearson correlation coefficient, обозначается как r) — наиболее распространенная мера линейной связи между двумя количественными переменными.

Формула расчета:

[math]\displaystyle{ r = \frac{\sum[(x_i - \bar{x})(y_i - \bar{y})]}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}} }[/math]

где [math]\displaystyle{ x_i }[/math] и [math]\displaystyle{ y_i }[/math] — значения наблюдений, [math]\displaystyle{ \bar{x} }[/math] и [math]\displaystyle{ \bar{y} }[/math] — средние значения переменных.

Предположения и условия применения
  • Обе переменные должны быть измерены на интервальной или относительной шкале (количественные данные)
  • Связь между переменными должна быть линейной
  • Данные должны иметь нормальное распределение (для проверки значимости)
  • Гомоскедастичность (постоянство дисперсии)
  • Отсутствие выбросов, которые могут существенно влиять на результат
Интерпретация значений
  • r = +1: совершенная положительная линейная связь
  • 0.7 ≤ |r| < 1: сильная корреляция
  • 0.3 ≤ |r| < 0.7: умеренная корреляция
  • 0 < |r| < 0.3: слабая корреляция
  • r = 0: отсутствие линейной связи
  • r = −1: совершенная отрицательная линейная связь

Ранговая корреляция Спирмена (Spearman's ρ)

Ранговая корреляция Спирмена (Spearman's rank correlation coefficient, обозначается как ρ или rs) — непараметрическая мера монотонной связи между двумя переменными, основанная на рангах данных.

Формула расчета

[math]\displaystyle{ \rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)} }[/math]

где [math]\displaystyle{ d_i }[/math] — разность рангов для i-го наблюдения, n — объем выборки.

Условия применения
  • Хотя бы одна переменная измерена на порядковой шкале
  • Связь между переменными должна быть монотонной (но не обязательно линейной)
  • Менее чувствительна к выбросам, чем корреляция Пирсона
  • Не требует нормального распределения данных


Пример из образовательной сферы

Исследование связи между рейтингом студента по успеваемости (1-е место, 2-е место и т.д.) и рейтингом по участию в научных мероприятиях. Корреляция Спирмена ρ = 0.75 указывает на сильную монотонную связь: студенты с высоким рейтингом успеваемости, как правило, имеют высокий рейтинг научной активности.

Ранговая корреляция Кендалла (Kendall's τ)

Ранговая корреляция Кендалла (Kendall's tau, обозначается как τ) — еще одна непараметрическая мера связи, основанная на конкордантных и дискордантных парах наблюдений.

Формула:

[math]\displaystyle{ \tau = \frac{N_c - N_d}{n(n-1)/2} }[/math]

где [math]\displaystyle{ N_c }[/math] — число конкордантных пар, [math]\displaystyle{ N_d }[/math] — число дискордантных пар, n — объем выборки[10][13].

Особенности
  • Предпочтительна для малых выборок
  • Используется при наличии большого числа связанных рангов
  • Дает более точные обобщения на генеральную совокупность по сравнению со Спирменом