Панельные данные

Материал из Поле цифровой дидактики


Описание Панельные данные (panel data) — это тип данных, в котором наблюдения собираются по нескольким единицам (индивидам, организациям, регионам) в течение нескольких периодов времени. Такой формат сочетает в себе преимущества как временных рядов, так и поперечных срезов, позволяя анализировать динамику внутри единиц и индивидуальные различия.
Область знаний Социология, Экономика, Большие данные, Моделирование
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия CODAP, R, RAWGraphs

Определение и ключевые свойства

Панельные данные характеризуются:

  • Двухмерностью структуры: индивид i наблюдается в моменты времени t.
  • Возможностью моделирования фиксированных эффектов (неизменных параметров для каждого индивида) и случайных эффектов.
  • Увеличенной статистической мощностью и лучшей идентификацией причинно-следственных связей при контроле за неизменными во времени характеристиками.

Математическая формулировка

Общая модель панельных данных может быть записана как:

[math]\displaystyle{ Y_{it} = \alpha + \beta X_{it} + u_i + \varepsilon_{it} }[/math]

где [math]\displaystyle{ Y_{it} }[/math] — зависимая переменная для индивида i в момент времени t, [math]\displaystyle{ X_{it} }[/math] — вектор независимых переменных, [math]\displaystyle{ \alpha, \beta }[/math] — параметры модели, [math]\displaystyle{ u_i }[/math] — неконтролируемый индивидуальный эффект (фиксированный или случайный), [math]\displaystyle{ \varepsilon_{it} }[/math] — случайная ошибка.

Глоссарий

  • Индивид (индекс i): единица наблюдения (человек, фирма, регион).
  • Время (t): момент проведения наблюдения.
  • Фиксированные эффекты: параметры u_i, учитывающие неизменные во времени особенности каждого индивида.
  • Случайные эффекты: учитывают вариативность индивидов как случайную величину с распределением.
  • Панельная модель: статистическая модель, описывающая зависимость с учётом двух уровней: межиндивидуальных и внутригрупповых отличий.
  • Long формат: табличное представление, где каждая строка — одно наблюдение (i,t).
  • plm: пакет R для оценки панельных моделей.
  • Fixed effects (within): модель «внутри» групп, удаляющая постоянные эффекты.
  • Random effects: модель, предполагающая случайный характер индивидуальных эффектов.


Ниже приведены несколько известных моделей из стандартной библиотеки NetLogo в сферах экономики и экологии, которые отлично подходят для порождения структурированных панельных данных (t,i,y_{it}). Во всех случаях данные можно экспортировать через BehaviorSpace в формате CSV с полями: время t, уникальный идентификатор агента i, наблюдаемая характеристика (например, «wealth», «energy» или «size»


Модель « Sugarscape model» демонстрирует распределение ресурса (сахар) среди агентов:

  • Агенты перемещаются по пространству, собирая «сахар» на клетках.
  • Характеристика sugar у каждого агента изменяется во времени.
  • Можно собрать панель по (t,i,sugar_i(t))
Эксперимент в BehaviorSpace
  • Метрики: `turtles [who]`, `turtles [sugar]`
  • Шаги: 100 ticks

Результат: CSV с колонками `t,who,sugar`.