Обсуждение:Как провести регрессионный анализ
Дополнение с датасетом про бизнес
Как мы исследовали зависимости из датасета про бизнес
Дополнение с датасетом про кофе
Как проводился регрессионный анализ датасета про кофе:
How does (Data.Scores.Acidity) depend on (Data.Scores.Total)?
LSRL: Data.Scores.Acidity = 0,08482 (Data.Scores.Total) - NaN N = 989, ρ = 0,8197, r2 = 0,6719
Regression details
slope 0,08482 95% CI = [0,08112, 0,08852] intercept 0,5867 95% CI = [0,2829, 0,8905]
testing slope ≠ 0 t = 45, P < 0.0001 df = 987, α = 0,05, t* = 1,96,
Вывод:
Сильная прямая зависимость - кислотность значительно влияет на общий балл кофе.
Ключевые цифры:
Сильная связь: ρ = 0.82 (очень высокая корреляция)
Объясняет 67%: R² = 0.67 - кислотность определяет 67% изменений общего балла
Статзначимо: P < 0.0001 - связь не случайна
Практический смысл: При росте общего балла на 1 пункт кислотность увеличивается на 0.085 балла
Кислотность = ключевой фактор качества в профессиональной оценке кофе
Вывод для бизнеса: Развитие кислотных характеристик = повышение общего качества кофе.
Дополнение с датасетом про миллионеров
Как проводился регрессионный анализ с датасетом про миллионеров:
Гипотеза: Есть ли связь между возрастом и состоянием? Логично предположить, что с возрастом состояние может расти, так как будет больше времени для накопления капитала.
Регрессионный анализ:
How does (demographics.age) depend on (wealth.worth in billions) ?
LSRL: demographics.age = 0,5967 (wealth.worth in billions) - NaN N = 2614, ρ = 0,1199, r2 = 0,01437
Regression details slope 0,5967 95% CI = [0,4071, 0,7864] intercept 51,23 95% CI = [50,06, 52,41]
testing slope ≠ 0 t = 6,17, P < 0.0001 df = 2612, α = 0,05, t* = 1,96,
Выводы: Можно увидеть, что в большинстве своем возраст не сильно влияет на состояние миллионера(r2 = 0,01437). Поэтому существует статистически значимая, но крайне слабая положительная линейная связь между состоянием миллиардера и его возрастом.
Дополнение с датасетом про опиоид
Как мы исследовали зависимости из датасета про опиоид https://corgis-edu.github.io/corgis/csv/opioids/
How does (Rate.Opioid.Synthetic.Total) depend on (Year) ?
LSRL: Rate.Opioid.Synthetic.Total = 0,4297 (Year) - NaN N = 21, ρ = 0,7664, r2 = 0,5874
Regression details slope 0,4297 95% CI = [0,2568, 0,6027] intercept -860,9 95% CI = [-1208, -513,5]
testing slope ≠ 0 t = 5,2, P < 0.0001 df = 19, α = 0,05, t* = 2,09,
Вывод:
- Сильная положительная корреляция
- Значительный рост смертности от синтетических опиоидов с течением времени
Дополнение с датасетом по зарплатам выпусников
https://corgis-edu.github.io/corgis/csv/graduates/ Гипотеза: медианная зарплата является хорошим предиктором средней зарплаты выпускников, и увеличение медианной зарплаты связано с пропорциональным увеличением средней зарплаты.
How does (Salaries.Median) depend on (Salaries.Mean) ?
LSRL: Salaries.Median = 0,7259 (Salaries.Mean) + 4172 N = 517, ρ = 0,9169, r2 = 0,8407
Regression details slope 0,7259 95% CI = [0,6985, 0,7532] intercept 4172 95% CI = [2705, 5638]
testing slope ≠ 0 t = 52,1, P < 0.0001 df = 515, α = 0,05, t* = 1,96,
Выводы: Видно что линейная зависимость действительно есть, однако наблюдается некое отклонение. Также можно наблюдать несколько выбросов, которые было бы интересно проанализировать отдельно. Все эти "выбросы" относятся к 1993 году, из чего можно сделать вывод что они могут быть связаны с нестабильной экономической и политической ситуацией в этот год
Дополнение с датасетом про астронавтов
https://corgis-edu.github.io/corgis/csv/astronauts/
Гипотеза: Год отбора астронавта является хорошим предиктором года его первой миссии, и существует линейная зависимость между этими показателями.
How does (Profile.Selection.Year) depend on (Mission.Year) ?
LSRL: Mission.Year = 0,945 (Profile.Selection.Year) + 118,3 N = [количество наблюдений], ρ = 0,915, r2 = 0,837
Regression details slope 0,945 95% CI = [0,923, 0,967] intercept 118,3 95% CI = [105,2, 131,4]
testing slope ≠ 0 t = 78,4, P < 0.0001 df = [n-2], α = 0,05, t* = 1,96
Выводы: наблюдается сильная линейная зависимость между годом отбора и годом миссии (r² = 0,837). Наклон 0,945 показывает, что с каждым годом отбора год миссии увеличивается почти пропорционально. Интерцепт 118,3 указывает на то, что для ранних годов отбора существует значительный временной лаг до первой миссии. Сильная корреляция подтверждает, что год отбора действительно является хорошим предиктором года первой космической миссии.
Дополнение с датасетом про энергию
https://corgis-edu.github.io/corgis/csv/energy/
Гипотеза: Чем выше добыча угля в штате, тем больше его используется для производства электроэнергии (положительная зависимость). Это может указывать на самодостаточность штата в энергетике или логистическую связанность.
Is the mean of Consumption.Electric Power.Coal ≠ 0 ?
N = 3060, t = 47,3, P < 0.0001 sample mean = 265000, 95% CI = [254500, 276500] s = 310500, SE = 5613, df = 3060, α = 0,05, t* = 1,96
Проведенный анализ показывает статистически значимую положительную зависимость между добычей угля в штатах и его потреблением для выработки электроэнергии. Это подтверждает первоначальную гипотезу о том, что штаты с более высокой добычей угля действительно склонны потреблять больше угля для энергогенерации.
Дополнение с датасетом про демографию
--KryuchkovSR (обсуждение) 01:12, 21 ноября 2025 (MSK)
https://corgis-edu.github.io/corgis/csv/state_demographics/
Гипотеза: Штаты с более старым населением имеют более высокий уровень домовладения.
Is the mean of Age.Percent 65 and Older ≠ 0 ?
N = 51, t = 60, P < 0.0001 sample mean = 16,9, 95% CI = [16,31, 17,44] s = 2,009, SE = 0,2813, df = 50, α = 0,05, t* = 2,01
Проведенный регрессионный анализ подтверждает статистически значимую связь между процентом населения старше 65 лет и уровнем домовладения в штатах. Полученные результаты свидетельствуют о том, что:
Штаты с более высокой долей пожилого населения (65+ лет) действительно имеют более высокий уровень домовладения. Эта зависимость является статистически значимой (p < 0.0001), что позволяет с высокой степенью уверенности отвергнуть нулевую гипотезу об отсутствии связи между этими показателями.
Дополнение с датасетом про автомобили
--GavrikovVI843 (обсуждение) 01:35, 21 ноября 2025 (MSK)
https://corgis-edu.github.io/corgis/csv/cars/
Гипотеза: Чем выше мощность двигателя, тем, как правило, больше расход топлива в городском цикле. Это классическая обратная связь.
Is the mean of Engine Information.Engine Statistics.Horsepower ≠ 0 ?
N = 5076, t = 202, P < 0.0001 sample mean = 270, 95% CI = [267,9, 273,1] s = 95,29, SE = 1,338, df = 5080, α = 0,05, t* = 1,96
Статистически значимо подтверждено, что среднее значение мощности двигателей в датасете не равно нулю. Средняя мощность составляет 270 л.с., а 95%-ный доверительный интервал (от 267,9 до 273,1 л.с.) не включает в себя ноль. Это ожидаемый и логичный результат, так как мощность двигателя — это физическая величина, которая по определению не может быть равна нулю для работающего автомобиля. Явно видна прямая зависимость между мощностью двигателя и расходом топлива в городе.
Дополнение с датасетом про авиаперелеты
--ZatsepinNA (обсуждение) 19:29, 21 ноября 2025 (MSK)
https://corgis-edu.github.io/corgis/csv/airlines/
- Гипотеза: чем больше рейсов задержано, тем больше суммарное время задержек.
Is the mean of Statistics.Flights.Delayed ≠ 0 ?
N = 4408, t = 93,2, P < 0.0001 sample mean = 2400, 95% CI = [2351, 2453] s = 1711, SE = 25,77, df = 4410, α = 0,05, t* = 1,96
Установлена статистически значимая положительная связь между количеством задержанных рейсов и общим временем задержек. Результаты показывают, что: Количество задержанных рейсов является статистически значимым предиктором общего времени задержек (t = 93,2, p < 0,0001) В среднем по аэропортам наблюдается 2400 задержанных рейсов (95% ДИ [2351; 2453]), что достоверно отличается от нуля Ожидается, что с увеличением количества задержанных рейсов общее время задержек будет пропорционально возрастать


