Социально-экономическая статистика и эконометрика/exam questions: различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Нет описания правки
 
(не показано 9 промежуточных версий этого же участника)
Строка 7: Строка 7:
#* [[Медиана]] — это «середина» ряда данных, половина значений меньше неё, половина больше
#* [[Медиана]] — это «середина» ряда данных, половина значений меньше неё, половина больше
#* [[Мода]]  
#* [[Мода]]  
# Показатели вариации - дисперсия
# Показатели вариации - [[дисперсия]]
#* Это мера разброса данных. Показывает, насколько сильно значения в среднем отклоняются от «центра» (среднего)
#* Это мера разброса данных. Показывает, насколько сильно значения в среднем отклоняются от «центра» (среднего)
#* В [[Simple Economy]]: разрыв между бедными и богатыми
#* В [[Simple Economy]]: разрыв между бедными и богатыми
Строка 31: Строка 31:
#* Способ провести линию так, чтобы сумма квадратов расстояний (ошибок) от всех точек до этой линии была минимальной
#* Способ провести линию так, чтобы сумма квадратов расстояний (ошибок) от всех точек до этой линии была минимальной
#* [[CODAP]]
#* [[CODAP]]
# Коэффициента детерминации (R-квадрат)
# [[Коэффициент детерминации]] (R-квадрат)
#* Доля вариации зависимой переменной, которая объясняется нашей моделью
#* Доля вариации зависимой переменной, которая объясняется нашей моделью
#*
#*
Строка 58: Строка 58:
#* Вероятность получить такие же данные (или еще более выраженные) случайно, если на самом деле эффекта нет
#* Вероятность получить такие же данные (или еще более выраженные) случайно, если на самом деле эффекта нет
#* p-value < 0.05, - слишком маловероятно, чтобы быть совпадением
#* p-value < 0.05, - слишком маловероятно, чтобы быть совпадением
# [[Дескриптивный анализ]] - выброс в данных
# [[Дескриптивный анализ]] - [[выброс]] в данных
#*
#*
#*
#*
Строка 74: Строка 74:
#*
#*
# Выбросы и влиятельные наблюдения
# Выбросы и влиятельные наблюдения
#* Выброс — это точка далеко от облака данных (большая ошибка). Влиятельное наблюдение (рычаг) — точка, которая находится далеко от центра по оси X и «притягивает» линию регрессии к себе
#* [[Выброс]] — это точка далеко от облака данных (большая ошибка). Влиятельное наблюдение (рычаг) — точка, которая находится далеко от центра по оси X и «притягивает» линию регрессии к себе
#*
#*
# Корреляция, причинность и смещения - Ложная корреляция
# Корреляция, причинность и смещения - Ложная корреляция
#* связь между X и Y вызвана не их взаимодействием, а влиянием третьей, скрытой переменной Z на оба фактора
#* связь между X и Y вызвана не их взаимодействием, а влиянием третьей, скрытой переменной Z на оба фактора
#*
#*
# [[Парадокс Симпсона]]
#* Если одна группа численно доминирует или имеет совершенно другие базовые показатели, объединение данных искажает выводы
#*
#*
# Автокорреляция
# [[Автокорреляция]]
#*  Это корреляция ряда с самим собой, но со сдвигом во времени. Означает инерцию процесса
#*  Это корреляция ряда с самим собой, но со сдвигом во времени. Означает инерцию процесса
#*
#*
# Объясните механизм возникновения неравенства (распределения Больцмана-Гиббса) в модели Simple Economy
# Объясните механизм возникновения неравенства (распределения Больцмана-Гиббса) в модели Simple Economy
#* Деньги аккумулируются у везучих, формируя [[степенной закон]] распределения
#* Деньги аккумулируются у везучих, формируя [[степенной закон]] распределения
#*
# Статистика неравенства. [[Кривая Лоренца]]. Объясните понятие Кривой Лоренца. Что она показывает и как выглядит график для общества с абсолютным равенством?
#* График, показывающий, какую долю общего дохода получают самые бедные X% населения. Линия абсолютного равенства — это диагональ под углом 45° (10% людей имеют 10% денег, 50% людей — 50% денег). Реальная кривая всегда выгнута вниз.
#*  Модель Simple Economy в NetLogo, [[Wealth Distribution]]
# [[Коэффициент Джини]] В каких пределах он изменяется и что означают крайние значения?
#* Это числовой показатель степени расслоения общества (от 0 до 1 или от 0 до 100%).
#* [[Wealth Distribution]]
# Объясните, почему в модели [[Wealth Distribution]] возникает неравенство, если все агенты начинают одинаково.
#*
#*
#*




== Практические вопросы ==
# Постройте визуализацию распределения количественной переменной и определите форму распределения.
#* [[CODAP]]: Перетащить переменную на ось графика. Получится точечная диаграмма (dot plot). Можно сгруппировать в «бары» (fuse dots into bars) или включить гистограмму
#* RAWGraphs Datawrapper
# Постройте диаграмму рассеяния (Scatter Plot) для двух переменных и визуально оцените наличие связи
#*  [[R]] Команда plot(x, y) [[CODAP]]: Перетащить одну переменную на ось X, другую на ось Y.
#* Если точки выстраиваются в диагональное облако — связь есть
#  Сравните распределения количественной переменной для разных категорий, используя параллельные графики
#*
#*
# Постройте «ящик с усами» ([[Box Plot]]) и определите наличие выбросов в данных
#*
#*
# Используя [[RAWGraphs]], постройте диаграмму для визуализации части и целого
#*
#*
# Постройте несколько графиков на одном экране в CODAP для поиска многомерных связей
#*
#*
# Рассчитайте основные описательные статистики (среднее, медиана) для набора данных
#*
#*
# Сгруппируйте данные по категориальной переменной и рассчитайте среднее значение для каждой группы
#*
#*
# Создайте сводную таблицу (Pivot Table) для подсчета количества объектов в каждой категории
#*
#*
# Рассчитайте стандартное отклонение и объясните, что оно показывает в данном контексте
#*
#*
# Постройте линию тренда (линейную регрессию) на диаграмме рассеяния и определите её наклон
#*
#*
# Рассчитайте [[коэффициент корреляции]] Пирсона для двух переменных
#*
#*
#  Оцените качество модели регрессии с помощью коэффициента детерминации
#*
#*
# Используя уравнение регрессии, сделайте прогноз значения Y для заданного X
#*
#*
# Отфильтруйте данные, оставив для анализа только те объекты, которые удовлетворяют определенному условию
#*
#*
# Экспортируйте результаты анализа (таблицу или график) для вставки в отчет
#*
#*
# Используя модель Simple Economy в NetLogo запустите симуляцию и соберите данные о распределении богатства через 500 шагов
#*
#*
# Используя плагин Sampler в CODAP, выполните симуляцию подбрасывания монеты (или кубика) 100 раз
#*
#*
# Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения
#*
#*
# Постройте кривую Лоренца по имеющимся данным о распределении доходов (или используя данные симуляции).
#* [[CODAP]]/ [[Excel]]
#* Использовать встроенный монитор или график «Lorenz Curve» во время симуляции Simple Economy (Wealth Distribution)
# Оценить [[Коэффициент Джини]] для заданного распределения.
#* Оценить площадь фигуры между диагональю (линией равенства) и кривой Лоренца. Чем больше эта площадь, тем выше коэффициент.
#* В модели [[Wealth Distribution]] считать значение глобальной переменной gini-index-reserve и построить график её изменения во времени.


# [[Как проводить статистические вычисления в Lua]]


== В форме билетов с двумя вопросами ==


===1===


== Практические вопросы ==
# Центральная предельная теорема (ЦПТ)
# Постройте Кривую Лоренца по имеющимся данным о распределении доходов (используя данные симуляции)
 
===2 ===
# [[Дескриптивный анализ]]. Понятие [[выброс]]а в данных
# Рассчитайте [[коэффициент Джини]] для заданного распределения (используя данные симуляции [[Wealth Distribution]])
 
===3===
# [[A/B тестирование]] (сплит-тестирование)
# Как экспортировать данные и результаты анализа для дальнейшего использования в других программах? ([[CODAP]], [[R]], [[RAWGraphs]])
 
===4===
# Понятие [[Качественная переменная|категориальной переменной]] в отличие от количественной
# Как построить [[диаграмма рассеяния|диаграмму рассеяния]] для анализа связи между двумя переменными? (CODAP, R, RAWGraphs)
 
===5===
# Понятие [[дисперсия|дисперсии]]
# Как сгруппировать данные по  [[Качественная переменная|категориальной переменной]]  и сравнить средние значения между группами?
 
===6===
 
# [[Коэффициент вариации]].
# Рассчитать основные [[Описательная статистика|описательные статистики]] (среднее, [[медиана]], [[стандартное отклонение]]) для набора данных ([[CODAP], [[R]], [[RAWGraphs]])
 
===7===
 
# [[Гистограмма распределения]].
# Построить линейную [[Регрессионная модель|регрессионную модель]] и интерпретировать полученные коэффициенты (используя данные симуляции).
 
===8===
# [[Диаграмма рассеяния]] (Scatter Plot).
# Рассчитать [[коэффициент корреляции]] и проверить его статистическую значимость
 
===9===
 
# [[Корреляция]]. Понятие ложной корреляции
# [[Организовать сбор данных из симуляции Wealth Distribution с помощью BehaviorSpace]] для последующего статистического анализа
 
===10===
 
# [[Коэффициент корреляции]] Пирсона. О чем говорят значения близкие к 0, 1 и -1?
# Как создать сводную таблицу ([[pivot table]]) для группировки и агрегирования данных? (CODAP, R)
 
===11===
#  [[Линейная регрессия]]. Парная линейная регрессия
 
2. Выполнить [[Метод Монте-Карло|симуляцию Монте-Карло]] для оценки вероятности события
 
===12===
#  Парная регрессия и остатки. 
#  Построить несколько графиков одновременно для сравнения различных переменных
 
===13 ==
# [[Метод наименьших квадратов]]
# Выполнить t-тест для сравнения средних значений двух групп и интерпретировать результаты.
 
===14===
 
# Множественная регрессия
# Построить визуализацию распределения количественной переменной и определить форму распределения.
 
===15===
# Временные ряды. [[Тренд]] во временном ряду
# Построить диаграмму рассеяния ([[Scatter Plot]]) для двух переменных и визуально оцените наличие связи
 
===16===
# Понятие сезонности в экономике
# Построить «ящик с усами» ([[BoxPlot]]) и определить наличие выбросов в данных.
 
===17===
# Статистика населения. Понятия естественного и механического движения населения.
# Постройте график временного ряда (Time Series) по данным, полученным из симуляции
 
===18===
# Понятие эконометрической модели.
# Сгруппировать данные по категориальной переменной и рассчитать среднее значение для каждой группы.
 
===19===
# [[Метод Монте-Карло]]
# Создать сводную таблицу для подсчета количества объектов в каждой категории.
 
===20===
# Статистические гипотезы. Понятие нулевой гипотезы
# Рассчитать [[стандартное отклонение]] и объясните, что оно показывает в данном контексте.
 
===21===
# Понятие [[P-value]]. [[P-value]] и [[статистическая значимость]]
# Построить линию линейной регрессии на диаграмме рассеяния и определить её наклон.
 
===22===
# Ошибки гипотез. Разница между ошибкой первого и второго рода
 
2. Рассчитать [[коэффициент корреляции]] Пирсона для двух переменных.
 
===23===
# Статистика неравенства. [[Кривая Лоренца]]
# Оценить качество модели регрессии с помощью коэффициента детерминации
 
===24===
 
# [[Коэффициент Джини]]
# Используя уравнение регрессии, сделать прогноз значения Y для заданного X.
 
===25===
# Статистика труда: экономически активное население, занятость, безработица
# Выполните [[t-тест]] для сравнения средних значений двух независимых групп и интерпретируйте [[p-value]].
 
===26===
# Индексы в статистике
# Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения.

Текущая версия от 20:19, 26 декабря 2025

Понятия и темы

  1. Типы переменных Вопрос: Объясните понятие категориальной переменной в отличие от количественной.
    • Категориальная переменная разбивает объекты на группы (классы, категории) и не имеет числового смысла
    • В модели Simple Economy «богатство» агента — количественная, а «цвет» агента или «состояние» (работает/ищет) — категориальная
  2. Средние величины - медиана, мода
    • Медиана — это «середина» ряда данных, половина значений меньше неё, половина больше
    • Мода
  3. Показатели вариации - дисперсия
    • Это мера разброса данных. Показывает, насколько сильно значения в среднем отклоняются от «центра» (среднего)
    • В Simple Economy: разрыв между бедными и богатыми
  4. Показатели вариации - коэффициент вариации
    • относительная мера разброса (в процентах) - сравнивать разброс величин с разным масштабом
  5. Гистограмма распределения
    • Это график, показывающий, как часто встречаются разные значения переменной. Позволяет увидеть форму распределения (симметричное или скошенное)
    • см. CODAP: гистограмма роста студентов.
  6. Диаграмма рассеяния (Scatter Plot)
    • График, где каждая точка — это одно наблюдение с координатами X и Y.
    • CODAP
  7. Корреляция
    • Cогласованность изменений двух величин
    • Продажи мороженого и количество солнечных ожогов коррелируют
  8. Коэффициент корреляции
    • Число от -1 до 1, показывающее силу линейной связи. 1 — строгая прямая связь, -1 — строгая обратная, 0 — связи нет
  9. Парная линейная регрессия
    • Мы строим математическую модель (прямую линию), которая лучше всего описывает зависимость одной переменной от другой. Мы пытаемся предсказать Y, зная X.
    • Линия тренда в CODAP.
  10. Метод наименьших квадратов
    • Способ провести линию так, чтобы сумма квадратов расстояний (ошибок) от всех точек до этой линии была минимальной
    • CODAP
  11. Коэффициент детерминации (R-квадрат)
    • Доля вариации зависимой переменной, которая объясняется нашей моделью
  12. Множественная регрессия
    • Модель, где на результат влияет не один, а несколько факторов одновременно
  13. Временные ряды, понятие тренда
    • основная, долгосрочная тенденция изменения показателя
  14. Временные ряды, понятие сезонности
    • Регулярные, повторяющиеся колебания внутри года, связанные с временами года
  15. Статистика населения - понятия естественного и механического движения населения
  16. Статистика труда - понятие рабочей силы
  17. Метод Монте-Карло
    • Метод решения задач с помощью множества случайных экспериментов
    • CODAP, NetLogo
  18. Статистические гипотезы - понятие нулевой гипотезы
    • гипотеза «по умолчанию»: эффекта нет, разницы нет
  19. P-значение - p-value
    • Вероятность получить такие же данные (или еще более выраженные) случайно, если на самом деле эффекта нет
    • p-value < 0.05, - слишком маловероятно, чтобы быть совпадением
  20. Дескриптивный анализ - выброс в данных
  21. Описательные статистики и форма распределения - как соотносятся между собой среднее арифметическое, медиана и мода в случае асимметричного распределения
    • Распределение богатства в модели Simple Economy: горб слева, хвост справа
  22. Центральная предельная теорема
    • средние большого количества независимых случайных величин всегда стремятся к нормальному распределению, какой бы формы ни были сами величины
  23. Парная регрессия + гетероскедастичность
    • Ситуация, когда разброс ошибок (остатков) модели непостоянен — он меняется (например, растет) с ростом переменной X.
  24. Множественная регрессия мультиколлинеарность
    • факторы дублируют друг друга (например, «возраст» и «стаж»). Модель не может понять, какой именно из факторов влияет на Y. Коэффициенты становятся неустойчивыми и могут менять знаки.
  25. Выбросы и влиятельные наблюдения
    • Выброс — это точка далеко от облака данных (большая ошибка). Влиятельное наблюдение (рычаг) — точка, которая находится далеко от центра по оси X и «притягивает» линию регрессии к себе
  26. Корреляция, причинность и смещения - Ложная корреляция
    • связь между X и Y вызвана не их взаимодействием, а влиянием третьей, скрытой переменной Z на оба фактора
  27. Автокорреляция
    • Это корреляция ряда с самим собой, но со сдвигом во времени. Означает инерцию процесса
  28. Объясните механизм возникновения неравенства (распределения Больцмана-Гиббса) в модели Simple Economy
  29. Статистика неравенства. Кривая Лоренца. Объясните понятие Кривой Лоренца. Что она показывает и как выглядит график для общества с абсолютным равенством?
    • График, показывающий, какую долю общего дохода получают самые бедные X% населения. Линия абсолютного равенства — это диагональ под углом 45° (10% людей имеют 10% денег, 50% людей — 50% денег). Реальная кривая всегда выгнута вниз.
    • Модель Simple Economy в NetLogo, Wealth Distribution
  30. Коэффициент Джини В каких пределах он изменяется и что означают крайние значения?
    • Это числовой показатель степени расслоения общества (от 0 до 1 или от 0 до 100%).
    • Wealth Distribution
  31. Объясните, почему в модели Wealth Distribution возникает неравенство, если все агенты начинают одинаково.


Практические вопросы

  1. Постройте визуализацию распределения количественной переменной и определите форму распределения.
    • CODAP: Перетащить переменную на ось графика. Получится точечная диаграмма (dot plot). Можно сгруппировать в «бары» (fuse dots into bars) или включить гистограмму
    • RAWGraphs Datawrapper
  2. Постройте диаграмму рассеяния (Scatter Plot) для двух переменных и визуально оцените наличие связи
    • R Команда plot(x, y) CODAP: Перетащить одну переменную на ось X, другую на ось Y.
    • Если точки выстраиваются в диагональное облако — связь есть
  3. Сравните распределения количественной переменной для разных категорий, используя параллельные графики
  4. Постройте «ящик с усами» (Box Plot) и определите наличие выбросов в данных
  5. Используя RAWGraphs, постройте диаграмму для визуализации части и целого
  6. Постройте несколько графиков на одном экране в CODAP для поиска многомерных связей
  7. Рассчитайте основные описательные статистики (среднее, медиана) для набора данных
  8. Сгруппируйте данные по категориальной переменной и рассчитайте среднее значение для каждой группы
  9. Создайте сводную таблицу (Pivot Table) для подсчета количества объектов в каждой категории
  10. Рассчитайте стандартное отклонение и объясните, что оно показывает в данном контексте
  11. Постройте линию тренда (линейную регрессию) на диаграмме рассеяния и определите её наклон
  12. Рассчитайте коэффициент корреляции Пирсона для двух переменных
  13. Оцените качество модели регрессии с помощью коэффициента детерминации
  14. Используя уравнение регрессии, сделайте прогноз значения Y для заданного X
  15. Отфильтруйте данные, оставив для анализа только те объекты, которые удовлетворяют определенному условию
  16. Экспортируйте результаты анализа (таблицу или график) для вставки в отчет
  17. Используя модель Simple Economy в NetLogo запустите симуляцию и соберите данные о распределении богатства через 500 шагов
  18. Используя плагин Sampler в CODAP, выполните симуляцию подбрасывания монеты (или кубика) 100 раз
  19. Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения
  20. Постройте кривую Лоренца по имеющимся данным о распределении доходов (или используя данные симуляции).
    • CODAP/ Excel
    • Использовать встроенный монитор или график «Lorenz Curve» во время симуляции Simple Economy (Wealth Distribution)
  21. Оценить Коэффициент Джини для заданного распределения.
    • Оценить площадь фигуры между диагональю (линией равенства) и кривой Лоренца. Чем больше эта площадь, тем выше коэффициент.
    • В модели Wealth Distribution считать значение глобальной переменной gini-index-reserve и построить график её изменения во времени.
  1. Как проводить статистические вычисления в Lua

В форме билетов с двумя вопросами

1

  1. Центральная предельная теорема (ЦПТ)
  2. Постройте Кривую Лоренца по имеющимся данным о распределении доходов (используя данные симуляции)

2

  1. Дескриптивный анализ. Понятие выброса в данных
  2. Рассчитайте коэффициент Джини для заданного распределения (используя данные симуляции Wealth Distribution)

3

  1. A/B тестирование (сплит-тестирование)
  2. Как экспортировать данные и результаты анализа для дальнейшего использования в других программах? (CODAP, R, RAWGraphs)

4

  1. Понятие категориальной переменной в отличие от количественной
  2. Как построить диаграмму рассеяния для анализа связи между двумя переменными? (CODAP, R, RAWGraphs)

5

  1. Понятие дисперсии
  2. Как сгруппировать данные по категориальной переменной и сравнить средние значения между группами?

6

  1. Коэффициент вариации.
  2. Рассчитать основные описательные статистики (среднее, медиана, стандартное отклонение) для набора данных ([[CODAP], R, RAWGraphs)

7

  1. Гистограмма распределения.
  2. Построить линейную регрессионную модель и интерпретировать полученные коэффициенты (используя данные симуляции).

8

  1. Диаграмма рассеяния (Scatter Plot).
  2. Рассчитать коэффициент корреляции и проверить его статистическую значимость

9

  1. Корреляция. Понятие ложной корреляции
  2. Организовать сбор данных из симуляции Wealth Distribution с помощью BehaviorSpace для последующего статистического анализа

10

  1. Коэффициент корреляции Пирсона. О чем говорят значения близкие к 0, 1 и -1?
  2. Как создать сводную таблицу (pivot table) для группировки и агрегирования данных? (CODAP, R)

11

  1. Линейная регрессия. Парная линейная регрессия

2. Выполнить симуляцию Монте-Карло для оценки вероятности события

12

  1. Парная регрессия и остатки. 
  2. Построить несколько графиков одновременно для сравнения различных переменных

=13

  1. Метод наименьших квадратов
  2. Выполнить t-тест для сравнения средних значений двух групп и интерпретировать результаты.

14

  1. Множественная регрессия
  2. Построить визуализацию распределения количественной переменной и определить форму распределения.

15

  1. Временные ряды. Тренд во временном ряду
  2. Построить диаграмму рассеяния (Scatter Plot) для двух переменных и визуально оцените наличие связи

16

  1. Понятие сезонности в экономике
  2. Построить «ящик с усами» (BoxPlot) и определить наличие выбросов в данных.

17

  1. Статистика населения. Понятия естественного и механического движения населения.
  2. Постройте график временного ряда (Time Series) по данным, полученным из симуляции

18

  1. Понятие эконометрической модели.
  2. Сгруппировать данные по категориальной переменной и рассчитать среднее значение для каждой группы.

19

  1. Метод Монте-Карло
  2. Создать сводную таблицу для подсчета количества объектов в каждой категории.

20

  1. Статистические гипотезы. Понятие нулевой гипотезы
  2. Рассчитать стандартное отклонение и объясните, что оно показывает в данном контексте.

21

  1. Понятие P-value. P-value и статистическая значимость
  2. Построить линию линейной регрессии на диаграмме рассеяния и определить её наклон.

22

  1. Ошибки гипотез. Разница между ошибкой первого и второго рода

2. Рассчитать коэффициент корреляции Пирсона для двух переменных.

23

  1. Статистика неравенства. Кривая Лоренца
  2. Оценить качество модели регрессии с помощью коэффициента детерминации

24

  1. Коэффициент Джини
  2. Используя уравнение регрессии, сделать прогноз значения Y для заданного X.

25

  1. Статистика труда: экономически активное население, занятость, безработица
  2. Выполните t-тест для сравнения средних значений двух независимых групп и интерпретируйте p-value.

26

  1. Индексы в статистике
  2. Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения.