Как провести регрессионный анализ

Материал из Поле цифровой дидактики
Описание Как провести регрессионный анализ зависимости между двумя переменными. Мы используем CODAP
Область знаний Статистика, Моделирование
Область использования (ISTE)
Возрастная категория 16


Поясняющее видео
Близкие рецепту понятия МНК, регрессия, коэффициент корреляции
Среды и средства для приготовления рецепта:


Датасет CORGIS

Диаграмма рассеяния

 Description
Диаграмма рассеянияДиаграмма рассеяния (scatter plot) — графический метод визуализации связи между двумя количественными переменными, где каждое наблюдение представлено точкой на координатной плоскости.


Метод наименьших квадратов

 Description
Метод наименьших квадратовМетод наименьших квадратов (МНК) (англ. Least Squares Method, Ordinary Least Squares, OLS) — это математический метод оценки параметров статистических моделей, основанный на принципе минимизации суммы квадратов отклонений между наблюдаемыми и предсказанными моделью значениями.


Регрессионный анализ

 Description
Регрессионный анализРегрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую переменную. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна.

В CODAP регрессионный анализ проводится при помощи расширения testimate

= Подробный анализ полученного результата:

Регрессионный анализ с использованием метода наименьших квадратов

  • LSRL: Statistics.Flights.Delayed = 18,31 (Statistics.# of Delays.Weather) - NaN
    • Для каждого дополнительного случая задержки из-за погоды ожидается увеличение количества задержанных рейсов на 18,31 рейса в среднем.
  • N = 4408 — количество наблюдений (рейсов) в вашей выборке. Значительный размер выборки делает результаты более надежными.
  • ρ (rho) = 0,8044 — это коэффициент корреляции Пирсона. Его значение может варьироваться от -1 до +1:
    • 0,8044 указывает на очень сильную положительную корреляцию
  • Коэффициент детерминации r2 = 0,6471 Интерпретация: Примерно 64,71% вариативности в количестве задержанных рейсов можно объяснить вариативностью в количестве задержек из-за погоды

Детали анализа

Regression details
slope 18,31 95% CI = [17,91, 18,71] - Угловой коэффициент (наклон) = 18,31 — означает, что при увеличении количества задержек из-за погоды на одну единицу, количество задержанных рейсов увеличивается в среднем на 18,31 единицы
intercept 970,1 95% CI = [926,8, 1013] Свободный член (пересечение с осью) = 970,1 — это прогнозируемое количество задержанных рейсов при нулевых погодных задержках.