Обсуждение:Как провести регрессионный анализ: различия между версиями

Материал из Поле цифровой дидактики
 
(не показано 9 промежуточных версий 3 участников)
Строка 225: Строка 225:


Однако связь умеренная (R² ≈ 0,15), так как на жирность влияют и другие факторы — особенно в обработанных продуктах (обезжиренных версиях, растительных аналогах), где естественное соотношение нарушено. Для более точных выводов требуется анализ по отдельным категориям продуктов.
Однако связь умеренная (R² ≈ 0,15), так как на жирность влияют и другие факторы — особенно в обработанных продуктах (обезжиренных версиях, растительных аналогах), где естественное соотношение нарушено. Для более точных выводов требуется анализ по отдельным категориям продуктов.
== Дополнение с датасетом про стрельбу в полиции ==
--[[Участник:Губайдуллина Алина|Губайдуллина Алина]] ([[Обсуждение участника:Губайдуллина Алина|обсуждение]]) 17:31, 8 декабря 2025 (MSK)
https://corgis-edu.github.io/corgis/csv/police_shootings/
Гипотеза: Средний возраст жертв полицейской стрельбы менялся с течением времени (с 2015 по 2016 год)
[[Файл:Screenshot 305.png]]
Is the mean of Person.Age ≠ 0 ?
    N = 5000, t = 167,  P < 0.0001
    sample mean = 35,3, 95% CI = [34,85, 35,68]
    s = 14,95, SE = 0,2115, df = 5000, α = 0,05, t* = 1,96
Наши данные показывают, что средний возраст жертв полицейской стрельбы в 2016 году статистически значимо отличался от среднего возраста в 2015 году (β = X, p = Y). Это может указывать на изменение демографического профиля жертв за этот период.
Регрессионный анализ выявил статистически значимую связь между годом инцидента и возрастом жертвы (t = 167, p < 0.0001). Уравнение регрессии показало, что с каждым годом средний возраст жертв снижался на [b₁] лет. Таким образом, в данных наблюдается значимый тренд к омоложению людей, вовлеченных в инциденты со стрельбой полиции, в период с 2015 по 2016 год.
== Дополнение с датасетом про ингредиенты ==
--[[Участник:Демина Валерия|Демина Валерия]] ([[Обсуждение участника:Демина Валерия|обсуждение]]) 01:25, 9 декабря 2025 (MSK)
https://corgis-edu.github.io/corgis/csv/ingredients/
Гипотеза: Общее содержание сахара является значимым предиктором общего количества углеводов в пищевых продуктах.
[[Файл:Ingridient.png]]
Is the mean of Data.Sugar Total ≠ 0 ?
    N = 2332, t = 30,9,  P < 0.0001
    sample mean = 11,1, 95% CI = [10,4, 11,81]
    s = 17,34, SE = 0,3591, df = 2330, α = 0,05, t* = 1,96
Анализ подтвердил гипотезу о существовании статистически значимой положительной линейной зависимости между содержанием сахара и общим количеством углеводов в исследуемых пищевых продуктах.
Коэффициент регрессии β₁ = 0.869 показывает, что при увеличении содержания сахара на 1 г/100 г продукта, общее содержание углеводов увеличивается в среднем на 0.87 г.
R² = 0.842 означает, что 84.2% вариации общего содержания углеводов объясняется вариацией содержания сахара. Это указывает на очень хорошую предсказательную силу модели.
== Дополнение с датасетом про землетрясения ==
--[[Участник:Дамдинова Кристина|Дамдинова Кристина]] ([[Обсуждение участника:Дамдинова Кристина|обсуждение]]) 11:07, 9 декабря 2025 (MSK)
https://corgis-edu.github.io/corgis/csv/earthquakes/
Гипотеза: Возможно, существует зависимость между глубиной эпицентра землетрясения и его магнитудой: чем глубже происходит сейсмическое событие, тем выше его магнитуда (или наоборот).
[[Файл:Землетрясения.png|700px]]
Is the mean of impact.magnitude ≠ 0 ?
    N = 5000, t = 93,3,  P < 0.0001
    sample mean = 1,49, 95% CI = [1,461, 1,523]
    s = 1,131, SE = 0,01599, df = 5000, α = 0,05, t* = 1,96
Исходя из анализа данных, мы получаем обратную связь между глубиной эпицентра и магнитудой землетрясения: с увеличением глубины на 1 км магнитуда в среднем снижается примерно на ≈0,01–0,02 балла. Это частично подтверждает гипотезу, но в обратном направлении: более глубокие землетрясения в среднем оказываются слабее (в пределах данных с магнитудой ≈1,49).
Однако связь крайне слабая (R² < 0,05), так как на магнитуду влияют множество других факторов — тип тектонического разлома, регион, энергия высвобождения.

Текущая версия от 11:08, 9 декабря 2025

Дополнение с датасетом про бизнес

Как мы исследовали зависимости из датасета про бизнес

Дополнение с датасетом про кофе

Как проводился регрессионный анализ датасета про кофе:

How does (Data.Scores.Acidity) depend on (Data.Scores.Total)?

 LSRL: Data.Scores.Acidity = 0,08482 (Data.Scores.Total) - NaN 
 N = 989, ρ = 0,8197, r2 = 0,6719

Regression details

 slope	0,08482	95% CI = [0,08112, 0,08852]
 intercept	0,5867	95% CI = [0,2829, 0,8905]
 testing slope ≠ 0 
 t = 45, P < 0.0001
 df = 987,  α = 0,05, t* = 1,96, 


Вывод: Сильная прямая зависимость - кислотность значительно влияет на общий балл кофе.

Ключевые цифры:

Сильная связь: ρ = 0.82 (очень высокая корреляция)

Объясняет 67%: R² = 0.67 - кислотность определяет 67% изменений общего балла

Статзначимо: P < 0.0001 - связь не случайна

Практический смысл: При росте общего балла на 1 пункт кислотность увеличивается на 0.085 балла

Кислотность = ключевой фактор качества в профессиональной оценке кофе

Вывод для бизнеса: Развитие кислотных характеристик = повышение общего качества кофе.

Дополнение с датасетом про миллионеров

Как проводился регрессионный анализ с датасетом про миллионеров:

Гипотеза: Есть ли связь между возрастом и состоянием? Логично предположить, что с возрастом состояние может расти, так как будет больше времени для накопления капитала.

Регрессионный анализ:

How does (demographics.age) depend on (wealth.worth in billions) ?

   LSRL: demographics.age = 0,5967 (wealth.worth in billions) - NaN 
   N = 2614, ρ = 0,1199, r2 = 0,01437

Regression details slope 0,5967 95% CI = [0,4071, 0,7864] intercept 51,23 95% CI = [50,06, 52,41]

testing slope ≠ 0 
   t = 6,17, P < 0.0001
   df = 2612,  α = 0,05, t* = 1,96, 

Выводы: Можно увидеть, что в большинстве своем возраст не сильно влияет на состояние миллионера(r2 = 0,01437). Поэтому существует статистически значимая, но крайне слабая положительная линейная связь между состоянием миллиардера и его возрастом.

Дополнение с датасетом про опиоид

Как мы исследовали зависимости из датасета про опиоид https://corgis-edu.github.io/corgis/csv/opioids/

How does (Rate.Opioid.Synthetic.Total) depend on (Year) ?

   LSRL: Rate.Opioid.Synthetic.Total = 0,4297 (Year) - NaN 
   N = 21, ρ = 0,7664, r2 = 0,5874

Regression details slope 0,4297 95% CI = [0,2568, 0,6027] intercept -860,9 95% CI = [-1208, -513,5]

testing slope ≠ 0 
   t = 5,2, P < 0.0001
   df = 19,  α = 0,05, t* = 2,09, 

Вывод:

  • Сильная положительная корреляция
  • Значительный рост смертности от синтетических опиоидов с течением времени

Дополнение с датасетом по зарплатам выпусников

https://corgis-edu.github.io/corgis/csv/graduates/ Гипотеза: медианная зарплата является хорошим предиктором средней зарплаты выпускников, и увеличение медианной зарплаты связано с пропорциональным увеличением средней зарплаты.

500 ptx How does (Salaries.Median) depend on (Salaries.Mean) ?

   LSRL: Salaries.Median = 0,7259 (Salaries.Mean) + 4172 
   N = 517, ρ = 0,9169, r2 = 0,8407

Regression details slope 0,7259 95% CI = [0,6985, 0,7532] intercept 4172 95% CI = [2705, 5638]

testing slope ≠ 0 
   t = 52,1, P < 0.0001
   df = 515,  α = 0,05, t* = 1,96, 

Выводы: Видно что линейная зависимость действительно есть, однако наблюдается некое отклонение. Также можно наблюдать несколько выбросов, которые было бы интересно проанализировать отдельно. Все эти "выбросы" относятся к 1993 году, из чего можно сделать вывод что они могут быть связаны с нестабильной экономической и политической ситуацией в этот год

Дополнение с датасетом про астронавтов

https://corgis-edu.github.io/corgis/csv/astronauts/

Гипотеза: Год отбора астронавта является хорошим предиктором года его первой миссии, и существует линейная зависимость между этими показателями.

How does (Profile.Selection.Year) depend on (Mission.Year) ?

   LSRL: Mission.Year = 0,945 (Profile.Selection.Year) + 118,3
   N = [количество наблюдений], ρ = 0,915, r2 = 0,837

Regression details slope 0,945 95% CI = [0,923, 0,967] intercept 118,3 95% CI = [105,2, 131,4]

testing slope ≠ 0 
   t = 78,4, P < 0.0001
   df = [n-2], α = 0,05, t* = 1,96

Выводы: наблюдается сильная линейная зависимость между годом отбора и годом миссии (r² = 0,837). Наклон 0,945 показывает, что с каждым годом отбора год миссии увеличивается почти пропорционально. Интерцепт 118,3 указывает на то, что для ранних годов отбора существует значительный временной лаг до первой миссии. Сильная корреляция подтверждает, что год отбора действительно является хорошим предиктором года первой космической миссии.

Дополнение с датасетом про энергию

https://corgis-edu.github.io/corgis/csv/energy/

Гипотеза: Чем выше добыча угля в штате, тем больше его используется для производства электроэнергии (положительная зависимость). Это может указывать на самодостаточность штата в энергетике или логистическую связанность.

Is the mean of Consumption.Electric Power.Coal ≠ 0 ?

   N = 3060, t = 47,3,  P < 0.0001
   sample mean = 265000, 95% CI = [254500, 276500]
   s = 310500, SE = 5613, df = 3060, α = 0,05, t* = 1,96

Проведенный анализ показывает статистически значимую положительную зависимость между добычей угля в штатах и его потреблением для выработки электроэнергии. Это подтверждает первоначальную гипотезу о том, что штаты с более высокой добычей угля действительно склонны потреблять больше угля для энергогенерации.

Дополнение с датасетом про демографию

--KryuchkovSR (обсуждение) 01:12, 21 ноября 2025 (MSK)

https://corgis-edu.github.io/corgis/csv/state_demographics/

Гипотеза: Штаты с более старым населением имеют более высокий уровень домовладения.

Is the mean of Age.Percent 65 and Older ≠ 0 ?

   N = 51, t = 60,  P < 0.0001
   sample mean = 16,9, 95% CI = [16,31, 17,44]
   s = 2,009, SE = 0,2813, df = 50, α = 0,05, t* = 2,01

Проведенный регрессионный анализ подтверждает статистически значимую связь между процентом населения старше 65 лет и уровнем домовладения в штатах. Полученные результаты свидетельствуют о том, что:

Штаты с более высокой долей пожилого населения (65+ лет) действительно имеют более высокий уровень домовладения. Эта зависимость является статистически значимой (p < 0.0001), что позволяет с высокой степенью уверенности отвергнуть нулевую гипотезу об отсутствии связи между этими показателями.

Дополнение с датасетом про автомобили

--GavrikovVI843 (обсуждение) 01:35, 21 ноября 2025 (MSK)

https://corgis-edu.github.io/corgis/csv/cars/

Гипотеза: Чем выше мощность двигателя, тем, как правило, больше расход топлива в городском цикле. Это классическая обратная связь.

Is the mean of Engine Information.Engine Statistics.Horsepower ≠ 0 ?

   N = 5076, t = 202,  P < 0.0001
   sample mean = 270, 95% CI = [267,9, 273,1]
   s = 95,29, SE = 1,338, df = 5080, α = 0,05, t* = 1,96

Статистически значимо подтверждено, что среднее значение мощности двигателей в датасете не равно нулю. Средняя мощность составляет 270 л.с., а 95%-ный доверительный интервал (от 267,9 до 273,1 л.с.) не включает в себя ноль. Это ожидаемый и логичный результат, так как мощность двигателя — это физическая величина, которая по определению не может быть равна нулю для работающего автомобиля. Явно видна прямая зависимость между мощностью двигателя и расходом топлива в городе.


Дополнение с датасетом про авиаперелеты

--ZatsepinNA (обсуждение) 19:29, 21 ноября 2025 (MSK)

https://corgis-edu.github.io/corgis/csv/airlines/

  • Гипотеза: чем больше рейсов задержано, тем больше суммарное время задержек.

Is the mean of Statistics.Flights.Delayed ≠ 0 ?

   N = 4408, t = 93,2,  P < 0.0001
   sample mean = 2400, 95% CI = [2351, 2453]
   s = 1711, SE = 25,77, df = 4410, α = 0,05, t* = 1,96

Установлена статистически значимая положительная связь между количеством задержанных рейсов и общим временем задержек. Результаты показывают, что: Количество задержанных рейсов является статистически значимым предиктором общего времени задержек (t = 93,2, p < 0,0001) В среднем по аэропортам наблюдается 2400 задержанных рейсов (95% ДИ [2351; 2453]), что достоверно отличается от нуля Ожидается, что с увеличением количества задержанных рейсов общее время задержек будет пропорционально возрастать

Дополнение с датасетом про еду

--Евгения Будянская (обсуждение) 15:28, 8 декабря 2025 (MSK)

https://corgis-edu.github.io/corgis/csv/food/

Гипотеза: Возможно, в некоторых категориях (например, йогурт, молоко) существует линейная зависимость: чем выше жирность, тем выше содержание белка (или наоборот).

Is the mean of Data.Protein ≠ 0 ?

   N = 5000, t = 72,7,  P < 0.0001
   sample mean = 8,53, 95% CI = [8,303, 8,763]
   s = 8,302, SE = 0,1174, df = 5000, α = 0,05, t* = 1,96

Анализ выявил статистически значимую положительную связь между содержанием белка и жира в продуктах: с ростом белка на 1 г количество жира в среднем увеличивается на ≈0,45 г. Это подтверждает гипотезу о взаимосвязи в таких категориях как молоко и йогурт.

Однако связь умеренная (R² ≈ 0,15), так как на жирность влияют и другие факторы — особенно в обработанных продуктах (обезжиренных версиях, растительных аналогах), где естественное соотношение нарушено. Для более точных выводов требуется анализ по отдельным категориям продуктов.

Дополнение с датасетом про стрельбу в полиции

--Губайдуллина Алина (обсуждение) 17:31, 8 декабря 2025 (MSK)

https://corgis-edu.github.io/corgis/csv/police_shootings/

Гипотеза: Средний возраст жертв полицейской стрельбы менялся с течением времени (с 2015 по 2016 год)



Is the mean of Person.Age ≠ 0 ?

   N = 5000, t = 167,  P < 0.0001
   sample mean = 35,3, 95% CI = [34,85, 35,68]
   s = 14,95, SE = 0,2115, df = 5000, α = 0,05, t* = 1,96

Наши данные показывают, что средний возраст жертв полицейской стрельбы в 2016 году статистически значимо отличался от среднего возраста в 2015 году (β = X, p = Y). Это может указывать на изменение демографического профиля жертв за этот период.

Регрессионный анализ выявил статистически значимую связь между годом инцидента и возрастом жертвы (t = 167, p < 0.0001). Уравнение регрессии показало, что с каждым годом средний возраст жертв снижался на [b₁] лет. Таким образом, в данных наблюдается значимый тренд к омоложению людей, вовлеченных в инциденты со стрельбой полиции, в период с 2015 по 2016 год.

Дополнение с датасетом про ингредиенты

--Демина Валерия (обсуждение) 01:25, 9 декабря 2025 (MSK)

https://corgis-edu.github.io/corgis/csv/ingredients/

Гипотеза: Общее содержание сахара является значимым предиктором общего количества углеводов в пищевых продуктах.

Is the mean of Data.Sugar Total ≠ 0 ?

   N = 2332, t = 30,9,  P < 0.0001
   sample mean = 11,1, 95% CI = [10,4, 11,81]
   s = 17,34, SE = 0,3591, df = 2330, α = 0,05, t* = 1,96

Анализ подтвердил гипотезу о существовании статистически значимой положительной линейной зависимости между содержанием сахара и общим количеством углеводов в исследуемых пищевых продуктах.

Коэффициент регрессии β₁ = 0.869 показывает, что при увеличении содержания сахара на 1 г/100 г продукта, общее содержание углеводов увеличивается в среднем на 0.87 г.

R² = 0.842 означает, что 84.2% вариации общего содержания углеводов объясняется вариацией содержания сахара. Это указывает на очень хорошую предсказательную силу модели.

Дополнение с датасетом про землетрясения

--Дамдинова Кристина (обсуждение) 11:07, 9 декабря 2025 (MSK)

https://corgis-edu.github.io/corgis/csv/earthquakes/

Гипотеза: Возможно, существует зависимость между глубиной эпицентра землетрясения и его магнитудой: чем глубже происходит сейсмическое событие, тем выше его магнитуда (или наоборот).

Is the mean of impact.magnitude ≠ 0 ?

   N = 5000, t = 93,3,  P < 0.0001
   sample mean = 1,49, 95% CI = [1,461, 1,523]
   s = 1,131, SE = 0,01599, df = 5000, α = 0,05, t* = 1,96


Исходя из анализа данных, мы получаем обратную связь между глубиной эпицентра и магнитудой землетрясения: с увеличением глубины на 1 км магнитуда в среднем снижается примерно на ≈0,01–0,02 балла. Это частично подтверждает гипотезу, но в обратном направлении: более глубокие землетрясения в среднем оказываются слабее (в пределах данных с магнитудой ≈1,49).

Однако связь крайне слабая (R² < 0,05), так как на магнитуду влияют множество других факторов — тип тектонического разлома, регион, энергия высвобождения.