Коэффициент корреляции: различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
 
(не показаны 4 промежуточные версии этого же участника)
Строка 3: Строка 3:
|Field_of_knowledge=Экономика, Управление, Статистика, Моделирование
|Field_of_knowledge=Экономика, Управление, Статистика, Моделирование
|Inventor=Пирсон
|Inventor=Пирсон
|similar_concepts=Корреляция (корреляция)
|similar_concepts=Корреляция
|Environment=R
|Environment=R
}}
}}
'''линейный коэффициент корреляции''' (или '''коэффициент корреляции Пирсона''')


<center>
'''Математическое определение:''' Для двух случайных величин X и Y коэффициент корреляции представляет собой стандартизованную меру их ковариации:
<math>\mathbf{r}_{XY} = \frac{\mathbf{cov}_{XY}}{\mathbf{\sigma}_{X}{\sigma}_{Y}}= \frac{\sum (X-\bar{X})(Y-\bar{Y})}{\sqrt{\sum (X-\bar{X})^2\sum (Y-\bar{Y})^2}}.</math></center>


где <math>\overline{X} = \frac1n\sum_{t=1}^n X_t</math>, <math>\overline{Y} = \frac1n\sum_{t=1}^n Y_t</math> — среднее значение выборок.
<math>r = \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y}</math>
 
где <math>Cov(X,Y)</math> — ковариация переменных X и Y, <math>\sigma_X</math>
 
 
== Основные типы коэффициентов корреляции ==
 
=== Коэффициент корреляции Пирсона (Pearson's r) ===
 
'''Коэффициент корреляции Пирсона''' (Pearson correlation coefficient, обозначается как ''r'') — наиболее распространенная мера линейной связи между двумя количественными переменными.
 
'''Формула расчета:'''
 
<math>r = \frac{\sum[(x_i - \bar{x})(y_i - \bar{y})]}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}}</math>
 
где <math>x_i</math> и <math>y_i</math> — значения наблюдений, <math>\bar{x}</math> и <math>\bar{y}</math> — средние значения переменных.
 
; Предположения и условия применения:
* Обе переменные должны быть измерены на интервальной или относительной шкале (количественные данные)
* Связь между переменными должна быть линейной
* Данные должны иметь нормальное распределение (для проверки значимости)
* Гомоскедастичность (постоянство дисперсии)
* Отсутствие выбросов, которые могут существенно влиять на результат
 
; Интерпретация значений:
* r = +1: совершенная положительная линейная связь
* 0.7 ≤ |r| < 1: сильная корреляция
* 0.3 ≤ |r| < 0.7: умеренная корреляция
* 0 < |r| < 0.3: слабая корреляция
* r = 0: отсутствие линейной связи
* r = −1: совершенная отрицательная линейная связь
 
 
 
'''Определение''': Мера линейной связи между двумя количественными переменными.
 
<math>r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}}</math>
 
'''Диапазон''': от -1 до +1
 
'''Интерпретация:'''
 
{| class="wikitable"
|-
! r !! Интерпретация !! Пример
|-
| 0.9–1.0 || Очень сильная положительная || Рост и вес (почти всегда выше люди тяжелее)
|-
| 0.7–0.9 || '''Сильная положительная''' || '''Sch_Quality_Variation vs mean-satisfaction (r=0.807)''' ✓
|-
| 0.5–0.7 || Умеренная положительная || Образование и доход
|-
| 0.3–0.5 || Слабая положительная || Упражнения и долголетие
|-
| 0.1–0.3 || Очень слабая положительная || Практически нет видимой связи
|-
| ±0.05 || Почти нет связи || academic-mobility-radius vs mean-satisfaction (r=0.00026) ✗
|-
| -0.1–-0.3 || Очень слабая отрицательная || Практически нет видимой связи
|-
| -0.5–-0.7 || Умеренная отрицательная || Цена и спрос
|-
| -0.7–-0.9 || Сильная отрицательная || Курение и здоровье
|-
| -0.9–-1.0 || Очень сильная отрицательная || X и (100-X)
|}
 
; Что корреляция НЕ показывает:
* Она не показывает причину и следствие!
* r = 0.8 между A и B НЕ означает, что A вызывает B
 
; Когда использовать:
: Для быстрой оценки связи между двумя переменными.
 
 
=== Ранговая корреляция Спирмена (Spearman's ρ) ===
 
'''Ранговая корреляция Спирмена''' (Spearman's rank correlation coefficient, обозначается как ''ρ'' или ''r<sub>s</sub>'') — непараметрическая мера монотонной связи между двумя переменными, основанная на рангах данных.
 
; Формула расчета:
 
<math>\rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)}</math>
 
где <math>d_i</math> — разность рангов для i-го наблюдения, n — объем выборки.
 
; Условия применения:
* Хотя бы одна переменная измерена на порядковой шкале
* Связь между переменными должна быть монотонной (но не обязательно линейной)
* Менее чувствительна к выбросам, чем корреляция Пирсона
* Не требует нормального распределения данных
 
 
; Пример из образовательной сферы:
Исследование связи между рейтингом студента по успеваемости (1-е место, 2-е место и т.д.) и рейтингом по участию в научных мероприятиях. Корреляция Спирмена ρ = 0.75 указывает на сильную монотонную связь: студенты с высоким рейтингом успеваемости, как правило, имеют высокий рейтинг научной активности.
 
=== Ранговая корреляция Кендалла (Kendall's τ) ===
 
'''Ранговая корреляция Кендалла''' (Kendall's tau, обозначается как ''τ'') — еще одна непараметрическая мера связи, основанная на конкордантных и дискордантных парах наблюдений.
 
'''Формула:'''
 
<math>\tau = \frac{N_c - N_d}{n(n-1)/2}</math>
 
где <math>N_c</math> — число конкордантных пар, <math>N_d</math> — число дискордантных пар, n — объем выборки[10][13].
 
; Особенности:
* Предпочтительна для малых выборок
* Используется при наличии большого числа связанных рангов
* Дает более точные обобщения на генеральную совокупность по сравнению со Спирменом

Текущая версия от 22:15, 9 января 2026


Описание Коэффициент корреляции (correlation coefficient) — статистическая мера, количественно определяющая силу и направление линейной или монотонной взаимосвязи между двумя переменными. Коэффициент корреляции принимает значения от −1 до +1, где значения близкие к +1 указывают на сильную положительную связь, значения близкие к −1 — на сильную отрицательную связь, а значения около 0 свидетельствуют об отсутствии линейной взаимосвязи.
Область знаний Экономика, Управление, Статистика, Моделирование
Авторы Пирсон
Поясняющее видео
Близкие понятия Корреляция
Среды и средства для освоения понятия R


Математическое определение: Для двух случайных величин X и Y коэффициент корреляции представляет собой стандартизованную меру их ковариации:

[math]\displaystyle{ r = \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y} }[/math]

где [math]\displaystyle{ Cov(X,Y) }[/math] — ковариация переменных X и Y, [math]\displaystyle{ \sigma_X }[/math]


Основные типы коэффициентов корреляции

Коэффициент корреляции Пирсона (Pearson's r)

Коэффициент корреляции Пирсона (Pearson correlation coefficient, обозначается как r) — наиболее распространенная мера линейной связи между двумя количественными переменными.

Формула расчета:

[math]\displaystyle{ r = \frac{\sum[(x_i - \bar{x})(y_i - \bar{y})]}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}} }[/math]

где [math]\displaystyle{ x_i }[/math] и [math]\displaystyle{ y_i }[/math] — значения наблюдений, [math]\displaystyle{ \bar{x} }[/math] и [math]\displaystyle{ \bar{y} }[/math] — средние значения переменных.

Предположения и условия применения
  • Обе переменные должны быть измерены на интервальной или относительной шкале (количественные данные)
  • Связь между переменными должна быть линейной
  • Данные должны иметь нормальное распределение (для проверки значимости)
  • Гомоскедастичность (постоянство дисперсии)
  • Отсутствие выбросов, которые могут существенно влиять на результат
Интерпретация значений
  • r = +1: совершенная положительная линейная связь
  • 0.7 ≤ |r| < 1: сильная корреляция
  • 0.3 ≤ |r| < 0.7: умеренная корреляция
  • 0 < |r| < 0.3: слабая корреляция
  • r = 0: отсутствие линейной связи
  • r = −1: совершенная отрицательная линейная связь


Определение: Мера линейной связи между двумя количественными переменными.

[math]\displaystyle{ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} }[/math]

Диапазон: от -1 до +1

Интерпретация:

r Интерпретация Пример
0.9–1.0 Очень сильная положительная Рост и вес (почти всегда выше люди тяжелее)
0.7–0.9 Сильная положительная Sch_Quality_Variation vs mean-satisfaction (r=0.807)
0.5–0.7 Умеренная положительная Образование и доход
0.3–0.5 Слабая положительная Упражнения и долголетие
0.1–0.3 Очень слабая положительная Практически нет видимой связи
±0.05 Почти нет связи academic-mobility-radius vs mean-satisfaction (r=0.00026) ✗
-0.1–-0.3 Очень слабая отрицательная Практически нет видимой связи
-0.5–-0.7 Умеренная отрицательная Цена и спрос
-0.7–-0.9 Сильная отрицательная Курение и здоровье
-0.9–-1.0 Очень сильная отрицательная X и (100-X)
Что корреляция НЕ показывает
  • Она не показывает причину и следствие!
  • r = 0.8 между A и B НЕ означает, что A вызывает B
Когда использовать
Для быстрой оценки связи между двумя переменными.


Ранговая корреляция Спирмена (Spearman's ρ)

Ранговая корреляция Спирмена (Spearman's rank correlation coefficient, обозначается как ρ или rs) — непараметрическая мера монотонной связи между двумя переменными, основанная на рангах данных.

Формула расчета

[math]\displaystyle{ \rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)} }[/math]

где [math]\displaystyle{ d_i }[/math] — разность рангов для i-го наблюдения, n — объем выборки.

Условия применения
  • Хотя бы одна переменная измерена на порядковой шкале
  • Связь между переменными должна быть монотонной (но не обязательно линейной)
  • Менее чувствительна к выбросам, чем корреляция Пирсона
  • Не требует нормального распределения данных


Пример из образовательной сферы

Исследование связи между рейтингом студента по успеваемости (1-е место, 2-е место и т.д.) и рейтингом по участию в научных мероприятиях. Корреляция Спирмена ρ = 0.75 указывает на сильную монотонную связь: студенты с высоким рейтингом успеваемости, как правило, имеют высокий рейтинг научной активности.

Ранговая корреляция Кендалла (Kendall's τ)

Ранговая корреляция Кендалла (Kendall's tau, обозначается как τ) — еще одна непараметрическая мера связи, основанная на конкордантных и дискордантных парах наблюдений.

Формула:

[math]\displaystyle{ \tau = \frac{N_c - N_d}{n(n-1)/2} }[/math]

где [math]\displaystyle{ N_c }[/math] — число конкордантных пар, [math]\displaystyle{ N_d }[/math] — число дискордантных пар, n — объем выборки[10][13].

Особенности
  • Предпочтительна для малых выборок
  • Используется при наличии большого числа связанных рангов
  • Дает более точные обобщения на генеральную совокупность по сравнению со Спирменом