Как провести регрессионный анализ
Материал из Поле цифровой дидактики
| Описание | Как провести регрессионный анализ зависимости между двумя переменными. Мы используем CODAP |
|---|---|
| Область знаний | Статистика, Моделирование |
| Область использования (ISTE) | |
| Возрастная категория | 16
|
| Поясняющее видео | |
| Близкие рецепту понятия | МНК, регрессия, коэффициент корреляции |
| Среды и средства для приготовления рецепта: |
Датасет CORGIS
| Description | |
|---|---|
| Диаграмма рассеяния | Диаграмма рассеяния (scatter plot) — графический метод визуализации связи между двумя количественными переменными, где каждое наблюдение представлено точкой на координатной плоскости. |
Метод наименьших квадратов
| Description | |
|---|---|
| Метод наименьших квадратов | Метод наименьших квадратов (МНК) (англ. Least Squares Method, Ordinary Least Squares, OLS) — это математический метод оценки параметров статистических моделей, основанный на принципе минимизации суммы квадратов отклонений между наблюдаемыми и предсказанными моделью значениями. |
Регрессионный анализ
| Description | |
|---|---|
| Регрессионный анализ | Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую переменную. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными или регрессантами. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения. Наиболее распространённый вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая (или гиперплоскость), сумма квадратов между которой и данными минимальна. |
В CODAP регрессионный анализ проводится при помощи расширения testimate
Подробный анализ полученного результата: Регрессионный анализ с использованием метода наименьших квадратов
- LSRL: Statistics.Flights.Delayed = 18,31 (Statistics.# of Delays.Weather) - NaN
- Для каждого дополнительного случая задержки из-за погоды ожидается увеличение количества задержанных рейсов на 18,31 рейса в среднем.
- N = 4408 — количество наблюдений (рейсов) в вашей выборке. Значительный размер выборки делает результаты более надежными.
- ρ (rho) = 0,8044 — это коэффициент корреляции Пирсона. Его значение может варьироваться от -1 до +1:
- 0,8044 указывает на очень сильную положительную корреляцию
- r2 = 0,6471 Интерпретация: Примерно 64,71% вариативности в количестве задержанных рейсов можно объяснить вариативностью в количестве задержек из-за погоды
Детали анализа
- Regression details
- slope 18,31 95% CI = [17,91, 18,71] - Угловой коэффициент (наклон) = 18,31 — означает, что при увеличении количества задержек из-за погоды на одну единицу, количество задержанных рейсов увеличивается в среднем на 18,31 единицы
- intercept 970,1 95% CI = [926,8, 1013] Свободный член (пересечение с осью) = 970,1 — это прогнозируемое количество задержанных рейсов при нулевых погодных задержках.




