Социально-экономическая статистика и эконометрика/exam questions

Материал из Поле цифровой дидактики

Понятия и темы

  1. Типы переменных Вопрос: Объясните понятие категориальной переменной в отличие от количественной.
    • Категориальная переменная разбивает объекты на группы (классы, категории) и не имеет числового смысла
    • В модели Simple Economy «богатство» агента — количественная, а «цвет» агента или «состояние» (работает/ищет) — категориальная
  2. Средние величины - медиана, мода
    • Медиана — это «середина» ряда данных, половина значений меньше неё, половина больше
    • Мода
  3. Показатели вариации - дисперсия
    • Это мера разброса данных. Показывает, насколько сильно значения в среднем отклоняются от «центра» (среднего)
    • В Simple Economy: разрыв между бедными и богатыми
  4. Показатели вариации - коэффициент вариации
    • относительная мера разброса (в процентах) - сравнивать разброс величин с разным масштабом
  5. Гистограмма распределения
    • Это график, показывающий, как часто встречаются разные значения переменной. Позволяет увидеть форму распределения (симметричное или скошенное)
    • см. CODAP: гистограмма роста студентов.
  6. Диаграмма рассеяния (Scatter Plot)
    • График, где каждая точка — это одно наблюдение с координатами X и Y.
    • CODAP
  7. Корреляция
    • Cогласованность изменений двух величин
    • Продажи мороженого и количество солнечных ожогов коррелируют
  8. Коэффициент корреляции
    • Число от -1 до 1, показывающее силу линейной связи. 1 — строгая прямая связь, -1 — строгая обратная, 0 — связи нет
  9. Парная линейная регрессия
    • Мы строим математическую модель (прямую линию), которая лучше всего описывает зависимость одной переменной от другой. Мы пытаемся предсказать Y, зная X.
    • Линия тренда в CODAP.
  10. Метод наименьших квадратов
    • Способ провести линию так, чтобы сумма квадратов расстояний (ошибок) от всех точек до этой линии была минимальной
    • CODAP
  11. Коэффициент детерминации (R-квадрат)
    • Доля вариации зависимой переменной, которая объясняется нашей моделью
  12. Множественная регрессия
    • Модель, где на результат влияет не один, а несколько факторов одновременно
  13. Временные ряды, понятие тренда
    • основная, долгосрочная тенденция изменения показателя
  14. Временные ряды, понятие сезонности
    • Регулярные, повторяющиеся колебания внутри года, связанные с временами года
  15. Статистика населения - понятия естественного и механического движения населения
  16. Статистика труда - понятие рабочей силы
  17. Метод Монте-Карло
    • Метод решения задач с помощью множества случайных экспериментов
    • CODAP, NetLogo
  18. Статистические гипотезы - понятие нулевой гипотезы
    • гипотеза «по умолчанию»: эффекта нет, разницы нет
  19. P-значение - p-value
    • Вероятность получить такие же данные (или еще более выраженные) случайно, если на самом деле эффекта нет
    • p-value < 0.05, - слишком маловероятно, чтобы быть совпадением
  20. Дескриптивный анализ - выброс в данных
  21. Описательные статистики и форма распределения - как соотносятся между собой среднее арифметическое, медиана и мода в случае асимметричного распределения
    • Распределение богатства в модели Simple Economy: горб слева, хвост справа
  22. Центральная предельная теорема
    • средние большого количества независимых случайных величин всегда стремятся к нормальному распределению, какой бы формы ни были сами величины
  23. Парная регрессия + гетероскедастичность
    • Ситуация, когда разброс ошибок (остатков) модели непостоянен — он меняется (например, растет) с ростом переменной X.
  24. Множественная регрессия мультиколлинеарность
    • факторы дублируют друг друга (например, «возраст» и «стаж»). Модель не может понять, какой именно из факторов влияет на Y. Коэффициенты становятся неустойчивыми и могут менять знаки.
  25. Выбросы и влиятельные наблюдения
    • Выброс — это точка далеко от облака данных (большая ошибка). Влиятельное наблюдение (рычаг) — точка, которая находится далеко от центра по оси X и «притягивает» линию регрессии к себе
  26. Корреляция, причинность и смещения - Ложная корреляция
    • связь между X и Y вызвана не их взаимодействием, а влиянием третьей, скрытой переменной Z на оба фактора
  27. Автокорреляция
    • Это корреляция ряда с самим собой, но со сдвигом во времени. Означает инерцию процесса
  28. Объясните механизм возникновения неравенства (распределения Больцмана-Гиббса) в модели Simple Economy
  29. Статистика неравенства. Кривая Лоренца. Объясните понятие Кривой Лоренца. Что она показывает и как выглядит график для общества с абсолютным равенством?
    • График, показывающий, какую долю общего дохода получают самые бедные X% населения. Линия абсолютного равенства — это диагональ под углом 45° (10% людей имеют 10% денег, 50% людей — 50% денег). Реальная кривая всегда выгнута вниз.
    • Модель Simple Economy в NetLogo, Wealth Distribution
  30. Коэффициент Джини В каких пределах он изменяется и что означают крайние значения?
    • Это числовой показатель степени расслоения общества (от 0 до 1 или от 0 до 100%).
    • Wealth Distribution
  31. Объясните, почему в модели Wealth Distribution возникает неравенство, если все агенты начинают одинаково.


Практические вопросы

  1. Постройте визуализацию распределения количественной переменной и определите форму распределения.
    • CODAP: Перетащить переменную на ось графика. Получится точечная диаграмма (dot plot). Можно сгруппировать в «бары» (fuse dots into bars) или включить гистограмму
    • RAWGraphs Datawrapper
  2. Постройте диаграмму рассеяния (Scatter Plot) для двух переменных и визуально оцените наличие связи
    • R Команда plot(x, y) CODAP: Перетащить одну переменную на ось X, другую на ось Y.
    • Если точки выстраиваются в диагональное облако — связь есть
  3. Сравните распределения количественной переменной для разных категорий, используя параллельные графики
  4. Постройте «ящик с усами» (Box Plot) и определите наличие выбросов в данных
  5. Используя RAWGraphs, постройте диаграмму для визуализации части и целого
  6. Постройте несколько графиков на одном экране в CODAP для поиска многомерных связей
  7. Рассчитайте основные описательные статистики (среднее, медиана) для набора данных
  8. Сгруппируйте данные по категориальной переменной и рассчитайте среднее значение для каждой группы
  9. Создайте сводную таблицу (Pivot Table) для подсчета количества объектов в каждой категории
  10. Рассчитайте стандартное отклонение и объясните, что оно показывает в данном контексте
  11. Постройте линию тренда (линейную регрессию) на диаграмме рассеяния и определите её наклон
  12. Рассчитайте коэффициент корреляции Пирсона для двух переменных
  13. Оцените качество модели регрессии с помощью коэффициента детерминации
  14. Используя уравнение регрессии, сделайте прогноз значения Y для заданного X
  15. Отфильтруйте данные, оставив для анализа только те объекты, которые удовлетворяют определенному условию
  16. Экспортируйте результаты анализа (таблицу или график) для вставки в отчет
  17. Используя модель Simple Economy в NetLogo запустите симуляцию и соберите данные о распределении богатства через 500 шагов
  18. Используя плагин Sampler в CODAP, выполните симуляцию подбрасывания монеты (или кубика) 100 раз
  19. Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения
  20. Постройте кривую Лоренца по имеющимся данным о распределении доходов (или используя данные симуляции).
    • CODAP/ Excel
    • Использовать встроенный монитор или график «Lorenz Curve» во время симуляции Simple Economy (Wealth Distribution)
  21. Оценить Коэффициент Джини для заданного распределения.
    • Оценить площадь фигуры между диагональю (линией равенства) и кривой Лоренца. Чем больше эта площадь, тем выше коэффициент.
    • В модели Wealth Distribution считать значение глобальной переменной gini-index-reserve и построить график её изменения во времени.
  1. Как проводить статистические вычисления в Lua

В форме билетов с двумя вопросами

1

  1. Центральная предельная теорема (ЦПТ)
  2. Постройте Кривую Лоренца по имеющимся данным о распределении доходов (используя данные симуляции)

2

  1. Дескриптивный анализ. Понятие выброса в данных
  2. Рассчитайте коэффициент Джини для заданного распределения (используя данные симуляции Wealth Distribution)

3

  1. A/B тестирование (сплит-тестирование)
  2. Как экспортировать данные и результаты анализа для дальнейшего использования в других программах? (CODAP, R, RAWGraphs)

4

  1. Понятие категориальной переменной в отличие от количественной
  2. Как построить диаграмму рассеяния для анализа связи между двумя переменными? (CODAP, R, RAWGraphs)

5

  1. Понятие дисперсии
  2. Как сгруппировать данные по категориальной переменной и сравнить средние значения между группами?

6

  1. Коэффициент вариации.
  2. Рассчитать основные описательные статистики (среднее, медиана, стандартное отклонение) для набора данных ([[CODAP], R, RAWGraphs)

7

  1. Гистограмма распределения.
  2. Построить линейную регрессионную модель и интерпретировать полученные коэффициенты (используя данные симуляции).

8

  1. Диаграмма рассеяния (Scatter Plot).
  2. Рассчитать коэффициент корреляции и проверить его статистическую значимость

9

  1. Корреляция. Понятие ложной корреляции
  2. Организовать сбор данных из симуляции Wealth Distribution с помощью BehaviorSpace для последующего статистического анализа

10

  1. Коэффициент корреляции Пирсона. О чем говорят значения близкие к 0, 1 и -1?
  2. Как создать сводную таблицу (pivot table) для группировки и агрегирования данных? (CODAP, R)

11

  1. Линейная регрессия. Парная линейная регрессия

2. Выполнить симуляцию Монте-Карло для оценки вероятности события

12

  1. Парная регрессия и остатки. 
  2. Построить несколько графиков одновременно для сравнения различных переменных

=13

  1. Метод наименьших квадратов
  2. Выполнить t-тест для сравнения средних значений двух групп и интерпретировать результаты.

14

  1. Множественная регрессия
  2. Построить визуализацию распределения количественной переменной и определить форму распределения.

15

  1. Временные ряды. Тренд во временном ряду
  2. Построить диаграмму рассеяния (Scatter Plot) для двух переменных и визуально оцените наличие связи

16

  1. Понятие сезонности в экономике
  2. Построить «ящик с усами» (BoxPlot) и определить наличие выбросов в данных.

17

  1. Статистика населения. Понятия естественного и механического движения населения.
  2. Постройте график временного ряда (Time Series) по данным, полученным из симуляции

18

  1. Понятие эконометрической модели.
  2. Сгруппировать данные по категориальной переменной и рассчитать среднее значение для каждой группы.

19

  1. Метод Монте-Карло
  2. Создать сводную таблицу для подсчета количества объектов в каждой категории.

20

  1. Статистические гипотезы. Понятие нулевой гипотезы
  2. Рассчитать стандартное отклонение и объясните, что оно показывает в данном контексте.

21

  1. Понятие P-value. P-value и статистическая значимость
  2. Построить линию линейной регрессии на диаграмме рассеяния и определить её наклон.

22

  1. Ошибки гипотез. Разница между ошибкой первого и второго рода

2. Рассчитать коэффициент корреляции Пирсона для двух переменных.

23

  1. Статистика неравенства. Кривая Лоренца
  2. Оценить качество модели регрессии с помощью коэффициента детерминации

24

  1. Коэффициент Джини
  2. Используя уравнение регрессии, сделать прогноз значения Y для заданного X.

25

  1. Статистика труда: экономически активное население, занятость, безработица
  2. Выполните t-тест для сравнения средних значений двух независимых групп и интерпретируйте p-value.

26

  1. Индексы в статистике
  2. Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения.