Коэффициент корреляции: различия между версиями
Patarakin (обсуждение | вклад) Нет описания правки |
Patarakin (обсуждение | вклад) |
||
| (не показано 5 промежуточных версий этого же участника) | |||
| Строка 1: | Строка 1: | ||
{{Понятие | {{Понятие | ||
|Field_of_knowledge=Управление, Статистика | |Description='''Коэффициент корреляции''' (correlation coefficient) — статистическая мера, количественно определяющая силу и направление линейной или монотонной взаимосвязи между двумя переменными. Коэффициент корреляции принимает значения от −1 до +1, где значения близкие к +1 указывают на сильную положительную связь, значения близкие к −1 — на сильную отрицательную связь, а значения около 0 свидетельствуют об отсутствии линейной взаимосвязи. | ||
|Field_of_knowledge=Экономика, Управление, Статистика, Моделирование | |||
|Inventor=Пирсон | |Inventor=Пирсон | ||
|similar_concepts= | |similar_concepts=Корреляция | ||
|Environment=R | |Environment=R | ||
}} | }} | ||
'''Математическое определение:''' Для двух случайных величин X и Y коэффициент корреляции представляет собой стандартизованную меру их ковариации: | |||
<math>r = \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y}</math> | |||
где <math>Cov(X,Y)</math> — ковариация переменных X и Y, <math>\sigma_X</math> | |||
== Основные типы коэффициентов корреляции == | |||
=== Коэффициент корреляции Пирсона (Pearson's r) === | |||
'''Коэффициент корреляции Пирсона''' (Pearson correlation coefficient, обозначается как ''r'') — наиболее распространенная мера линейной связи между двумя количественными переменными. | |||
'''Формула расчета:''' | |||
<math>r = \frac{\sum[(x_i - \bar{x})(y_i - \bar{y})]}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}}</math> | |||
где <math>x_i</math> и <math>y_i</math> — значения наблюдений, <math>\bar{x}</math> и <math>\bar{y}</math> — средние значения переменных. | |||
; Предположения и условия применения: | |||
* Обе переменные должны быть измерены на интервальной или относительной шкале (количественные данные) | |||
* Связь между переменными должна быть линейной | |||
* Данные должны иметь нормальное распределение (для проверки значимости) | |||
* Гомоскедастичность (постоянство дисперсии) | |||
* Отсутствие выбросов, которые могут существенно влиять на результат | |||
; Интерпретация значений: | |||
* r = +1: совершенная положительная линейная связь | |||
* 0.7 ≤ |r| < 1: сильная корреляция | |||
* 0.3 ≤ |r| < 0.7: умеренная корреляция | |||
* 0 < |r| < 0.3: слабая корреляция | |||
* r = 0: отсутствие линейной связи | |||
* r = −1: совершенная отрицательная линейная связь | |||
'''Определение''': Мера линейной связи между двумя количественными переменными. | |||
<math>r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}}</math> | |||
'''Диапазон''': от -1 до +1 | |||
'''Интерпретация:''' | |||
{| class="wikitable" | |||
|- | |||
! r !! Интерпретация !! Пример | |||
|- | |||
| 0.9–1.0 || Очень сильная положительная || Рост и вес (почти всегда выше люди тяжелее) | |||
|- | |||
| 0.7–0.9 || '''Сильная положительная''' || '''Sch_Quality_Variation vs mean-satisfaction (r=0.807)''' ✓ | |||
|- | |||
| 0.5–0.7 || Умеренная положительная || Образование и доход | |||
|- | |||
| 0.3–0.5 || Слабая положительная || Упражнения и долголетие | |||
|- | |||
| 0.1–0.3 || Очень слабая положительная || Практически нет видимой связи | |||
|- | |||
| ±0.05 || Почти нет связи || academic-mobility-radius vs mean-satisfaction (r=0.00026) ✗ | |||
|- | |||
| -0.1–-0.3 || Очень слабая отрицательная || Практически нет видимой связи | |||
|- | |||
| -0.5–-0.7 || Умеренная отрицательная || Цена и спрос | |||
|- | |||
| -0.7–-0.9 || Сильная отрицательная || Курение и здоровье | |||
|- | |||
| -0.9–-1.0 || Очень сильная отрицательная || X и (100-X) | |||
|} | |||
; Что корреляция НЕ показывает: | |||
* Она не показывает причину и следствие! | |||
* r = 0.8 между A и B НЕ означает, что A вызывает B | |||
; Когда использовать: | |||
: Для быстрой оценки связи между двумя переменными. | |||
=== Ранговая корреляция Спирмена (Spearman's ρ) === | |||
'''Ранговая корреляция Спирмена''' (Spearman's rank correlation coefficient, обозначается как ''ρ'' или ''r<sub>s</sub>'') — непараметрическая мера монотонной связи между двумя переменными, основанная на рангах данных. | |||
; Формула расчета: | |||
<math>\rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)}</math> | |||
где <math>d_i</math> — разность рангов для i-го наблюдения, n — объем выборки. | |||
; Условия применения: | |||
* Хотя бы одна переменная измерена на порядковой шкале | |||
* Связь между переменными должна быть монотонной (но не обязательно линейной) | |||
* Менее чувствительна к выбросам, чем корреляция Пирсона | |||
* Не требует нормального распределения данных | |||
; Пример из образовательной сферы: | |||
Исследование связи между рейтингом студента по успеваемости (1-е место, 2-е место и т.д.) и рейтингом по участию в научных мероприятиях. Корреляция Спирмена ρ = 0.75 указывает на сильную монотонную связь: студенты с высоким рейтингом успеваемости, как правило, имеют высокий рейтинг научной активности. | |||
=== Ранговая корреляция Кендалла (Kendall's τ) === | |||
'''Ранговая корреляция Кендалла''' (Kendall's tau, обозначается как ''τ'') — еще одна непараметрическая мера связи, основанная на конкордантных и дискордантных парах наблюдений. | |||
'''Формула:''' | |||
<math>\tau = \frac{N_c - N_d}{n(n-1)/2}</math> | |||
где <math>N_c</math> — число конкордантных пар, <math>N_d</math> — число дискордантных пар, n — объем выборки[10][13]. | |||
; Особенности: | |||
* Предпочтительна для малых выборок | |||
* Используется при наличии большого числа связанных рангов | |||
* Дает более точные обобщения на генеральную совокупность по сравнению со Спирменом | |||
Текущая версия от 22:15, 9 января 2026
| Описание | Коэффициент корреляции (correlation coefficient) — статистическая мера, количественно определяющая силу и направление линейной или монотонной взаимосвязи между двумя переменными. Коэффициент корреляции принимает значения от −1 до +1, где значения близкие к +1 указывают на сильную положительную связь, значения близкие к −1 — на сильную отрицательную связь, а значения около 0 свидетельствуют об отсутствии линейной взаимосвязи. |
|---|---|
| Область знаний | Экономика, Управление, Статистика, Моделирование |
| Авторы | Пирсон |
| Поясняющее видео | |
| Близкие понятия | Корреляция |
| Среды и средства для освоения понятия | R |
Математическое определение: Для двух случайных величин X и Y коэффициент корреляции представляет собой стандартизованную меру их ковариации:
[math]\displaystyle{ r = \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y} }[/math]
где [math]\displaystyle{ Cov(X,Y) }[/math] — ковариация переменных X и Y, [math]\displaystyle{ \sigma_X }[/math]
Основные типы коэффициентов корреляции
Коэффициент корреляции Пирсона (Pearson's r)
Коэффициент корреляции Пирсона (Pearson correlation coefficient, обозначается как r) — наиболее распространенная мера линейной связи между двумя количественными переменными.
Формула расчета:
[math]\displaystyle{ r = \frac{\sum[(x_i - \bar{x})(y_i - \bar{y})]}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}} }[/math]
где [math]\displaystyle{ x_i }[/math] и [math]\displaystyle{ y_i }[/math] — значения наблюдений, [math]\displaystyle{ \bar{x} }[/math] и [math]\displaystyle{ \bar{y} }[/math] — средние значения переменных.
- Предположения и условия применения
- Обе переменные должны быть измерены на интервальной или относительной шкале (количественные данные)
- Связь между переменными должна быть линейной
- Данные должны иметь нормальное распределение (для проверки значимости)
- Гомоскедастичность (постоянство дисперсии)
- Отсутствие выбросов, которые могут существенно влиять на результат
- Интерпретация значений
- r = +1: совершенная положительная линейная связь
- 0.7 ≤ |r| < 1: сильная корреляция
- 0.3 ≤ |r| < 0.7: умеренная корреляция
- 0 < |r| < 0.3: слабая корреляция
- r = 0: отсутствие линейной связи
- r = −1: совершенная отрицательная линейная связь
Определение: Мера линейной связи между двумя количественными переменными.
[math]\displaystyle{ r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}} }[/math]
Диапазон: от -1 до +1
Интерпретация:
| r | Интерпретация | Пример |
|---|---|---|
| 0.9–1.0 | Очень сильная положительная | Рост и вес (почти всегда выше люди тяжелее) |
| 0.7–0.9 | Сильная положительная | Sch_Quality_Variation vs mean-satisfaction (r=0.807) ✓ |
| 0.5–0.7 | Умеренная положительная | Образование и доход |
| 0.3–0.5 | Слабая положительная | Упражнения и долголетие |
| 0.1–0.3 | Очень слабая положительная | Практически нет видимой связи |
| ±0.05 | Почти нет связи | academic-mobility-radius vs mean-satisfaction (r=0.00026) ✗ |
| -0.1–-0.3 | Очень слабая отрицательная | Практически нет видимой связи |
| -0.5–-0.7 | Умеренная отрицательная | Цена и спрос |
| -0.7–-0.9 | Сильная отрицательная | Курение и здоровье |
| -0.9–-1.0 | Очень сильная отрицательная | X и (100-X) |
- Что корреляция НЕ показывает
- Она не показывает причину и следствие!
- r = 0.8 между A и B НЕ означает, что A вызывает B
- Когда использовать
- Для быстрой оценки связи между двумя переменными.
Ранговая корреляция Спирмена (Spearman's ρ)
Ранговая корреляция Спирмена (Spearman's rank correlation coefficient, обозначается как ρ или rs) — непараметрическая мера монотонной связи между двумя переменными, основанная на рангах данных.
- Формула расчета
[math]\displaystyle{ \rho = 1 - \frac{6\sum d_i^2}{n(n^2-1)} }[/math]
где [math]\displaystyle{ d_i }[/math] — разность рангов для i-го наблюдения, n — объем выборки.
- Условия применения
- Хотя бы одна переменная измерена на порядковой шкале
- Связь между переменными должна быть монотонной (но не обязательно линейной)
- Менее чувствительна к выбросам, чем корреляция Пирсона
- Не требует нормального распределения данных
- Пример из образовательной сферы
Исследование связи между рейтингом студента по успеваемости (1-е место, 2-е место и т.д.) и рейтингом по участию в научных мероприятиях. Корреляция Спирмена ρ = 0.75 указывает на сильную монотонную связь: студенты с высоким рейтингом успеваемости, как правило, имеют высокий рейтинг научной активности.
Ранговая корреляция Кендалла (Kendall's τ)
Ранговая корреляция Кендалла (Kendall's tau, обозначается как τ) — еще одна непараметрическая мера связи, основанная на конкордантных и дискордантных парах наблюдений.
Формула:
[math]\displaystyle{ \tau = \frac{N_c - N_d}{n(n-1)/2} }[/math]
где [math]\displaystyle{ N_c }[/math] — число конкордантных пар, [math]\displaystyle{ N_d }[/math] — число дискордантных пар, n — объем выборки[10][13].
- Особенности
- Предпочтительна для малых выборок
- Используется при наличии большого числа связанных рангов
- Дает более точные обобщения на генеральную совокупность по сравнению со Спирменом
