Логистическая регрессия

Материал из Поле цифровой дидактики


Описание Логистическая регрессия (logistic regression) — это статистический метод анализа и моделирования бинарных (двухклассовых) результатов, где зависимая переменная принимает одно из двух возможных значений (например, "да/нет", "успех/неудача", "работает/не работает"). В отличие от линейной регрессии, логистическая регрессия моделирует вероятность принадлежности наблюдения к одному из двух классов.
Область знаний
Авторы
Поясняющее видео
Близкие понятия Регрессия, Логистическая функция
Среды и средства для освоения понятия R

Логистическая регрессия была разработана в начале XX века как расширение логистического уравнения роста численности популяции. В статистике и машинном обучении метод получил широкое распространение с 1970-х годов и сейчас является одним из самых популярных инструментов в социально-экономической статистике, медицине и других областях, благодаря своей интерпретируемости и эффективности.

В логистической регрессии зависимая переменная [math]\displaystyle{ y }[/math] принимает одно из двух значений:

[math]\displaystyle{ y \in \{0, 1\} }[/math]
или в более общем виде:
[math]\displaystyle{ y \in \{\text{«класс A»}, \text{«класс B»}\} }[/math]

В контексте социально-экономической статистики примеры включают:

  • Трудовая деятельность: работает (1) / не работает (0)
  • Образование: завершил обучение (1) / отчислен (0)
  • Финансовое поведение: открыл счет (1) / не открыл (0)
  • Предпринимательство: создал бизнес (1) / не создал (0)

В основе логистической регрессии лежит логистическая функция, которая преобразует любое вещественное число в значение между 0 и 1:

[math]\displaystyle{ \sigma(x) = \frac{1}{1 + e^{-x}} = \frac{e^x}{1 + e^x} }[/math]
где [math]\displaystyle{ e }[/math] — основание натурального логарифма (число Эйлера, ≈ 2.718).