Социально-экономическая статистика и эконометрика/exam questions: различия между версиями

Материал из Поле цифровой дидактики
Нет описания правки
Строка 95: Строка 95:


== Практические вопросы ==
== Практические вопросы ==
# Постройте визуализацию распределения количественной переменной и определите форму распределения.#* [[CODAP]]: Перетащить переменную на ось графика. Получится точечная диаграмма (dot plot). Можно сгруппировать в «бары» (fuse dots into bars) или включить гистограмму
#* RAWGraphs Datawrapper
# Постройте диаграмму рассеяния (Scatter Plot) для двух переменных и визуально оцените наличие связи
#*  [[R]] Команда plot(x, y) [[CODAP]]: Перетащить одну переменную на ось X, другую на ось Y.
#* Если точки выстраиваются в диагональное облако — связь есть
#  Сравните распределения количественной переменной для разных категорий, используя параллельные графики
#*
#*
# Постройте «ящик с усами» (Box Plot) и определите наличие выбросов в данных
#*
#*
# Используя RAWGraphs, постройте диаграмму для визуализации части и целого
#*
#*
# Постройте несколько графиков на одном экране в CODAP для поиска многомерных связей
#*
#*
# Рассчитайте основные описательные статистики (среднее, медиана) для набора данных
#*
#*
# Сгруппируйте данные по категориальной переменной и рассчитайте среднее значение для каждой группы
#*
#*
# Создайте сводную таблицу (Pivot Table) для подсчета количества объектов в каждой категории
#*
#*
# Рассчитайте стандартное отклонение и объясните, что оно показывает в данном контексте
#*
#*
# Постройте линию тренда (линейную регрессию) на диаграмме рассеяния и определите её наклон
#*
#*
# Рассчитайте [[коэффициент корреляции]] Пирсона для двух переменных
#*
#*
#  Оцените качество модели регрессии с помощью коэффициента детерминации
#*
#*
# Используя уравнение регрессии, сделайте прогноз значения Y для заданного X
#*
#*
# Отфильтруйте данные, оставив для анализа только те объекты, которые удовлетворяют определенному условию
#*
#*
# Экспортируйте результаты анализа (таблицу или график) для вставки в отчет
#*
#*
# Используя модель Simple Economy в NetLogo запустите симуляцию и соберите данные о распределении богатства через 500 шагов
#*
#*
# Используя плагин Sampler в CODAP, выполните симуляцию подбрасывания монеты (или кубика) 100 раз
#*
#*
# Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения
#*
#*
#
#*
#*
#
#*
#*

Версия от 21:50, 27 ноября 2025

Понятия и темы

  1. Типы переменных Вопрос: Объясните понятие категориальной переменной в отличие от количественной.
    • Категориальная переменная разбивает объекты на группы (классы, категории) и не имеет числового смысла
    • В модели Simple Economy «богатство» агента — количественная, а «цвет» агента или «состояние» (работает/ищет) — категориальная
  2. Средние величины - медиана, мода
    • Медиана — это «середина» ряда данных, половина значений меньше неё, половина больше
    • Мода
  3. Показатели вариации - дисперсия
    • Это мера разброса данных. Показывает, насколько сильно значения в среднем отклоняются от «центра» (среднего)
    • В Simple Economy: разрыв между бедными и богатыми
  4. Показатели вариации - коэффициент вариации
    • относительная мера разброса (в процентах) - сравнивать разброс величин с разным масштабом
  5. Гистограмма распределения
    • Это график, показывающий, как часто встречаются разные значения переменной. Позволяет увидеть форму распределения (симметричное или скошенное)
    • см. CODAP: гистограмма роста студентов.
  6. Диаграмма рассеяния (Scatter Plot)
    • График, где каждая точка — это одно наблюдение с координатами X и Y.
    • CODAP
  7. Корреляция
    • Cогласованность изменений двух величин
    • Продажи мороженого и количество солнечных ожогов коррелируют
  8. Коэффициент корреляции
    • Число от -1 до 1, показывающее силу линейной связи. 1 — строгая прямая связь, -1 — строгая обратная, 0 — связи нет
  9. Парная линейная регрессия
    • Мы строим математическую модель (прямую линию), которая лучше всего описывает зависимость одной переменной от другой. Мы пытаемся предсказать Y, зная X.
    • Линия тренда в CODAP.
  10. Метод наименьших квадратов
    • Способ провести линию так, чтобы сумма квадратов расстояний (ошибок) от всех точек до этой линии была минимальной
    • CODAP
  11. Коэффициента детерминации (R-квадрат)
    • Доля вариации зависимой переменной, которая объясняется нашей моделью
  12. Множественная регрессия
    • Модель, где на результат влияет не один, а несколько факторов одновременно
  13. Временные ряды, понятие тренда
    • основная, долгосрочная тенденция изменения показателя
  14. Временные ряды, понятие сезонности
    • Регулярные, повторяющиеся колебания внутри года, связанные с временами года
  15. Статистика населения - понятия естественного и механического движения населения
  16. Статистика труда - понятие рабочей силы
  17. Метод Монте-Карло
    • Метод решения задач с помощью множества случайных экспериментов
    • CODAP, NetLogo
  18. Статистические гипотезы - понятие нулевой гипотезы
    • гипотеза «по умолчанию»: эффекта нет, разницы нет
  19. P-значение - p-value
    • Вероятность получить такие же данные (или еще более выраженные) случайно, если на самом деле эффекта нет
    • p-value < 0.05, - слишком маловероятно, чтобы быть совпадением
  20. Дескриптивный анализ - выброс в данных
  21. Описательные статистики и форма распределения - как соотносятся между собой среднее арифметическое, медиана и мода в случае асимметричного распределения
    • Распределение богатства в модели Simple Economy: горб слева, хвост справа
  22. Центральная предельная теорема
    • средние большого количества независимых случайных величин всегда стремятся к нормальному распределению, какой бы формы ни были сами величины
  23. Парная регрессия + гетероскедастичность
    • Ситуация, когда разброс ошибок (остатков) модели непостоянен — он меняется (например, растет) с ростом переменной X.
  24. Множественная регрессия мультиколлинеарность
    • факторы дублируют друг друга (например, «возраст» и «стаж»). Модель не может понять, какой именно из факторов влияет на Y. Коэффициенты становятся неустойчивыми и могут менять знаки.
  25. Выбросы и влиятельные наблюдения
    • Выброс — это точка далеко от облака данных (большая ошибка). Влиятельное наблюдение (рычаг) — точка, которая находится далеко от центра по оси X и «притягивает» линию регрессии к себе
  26. Корреляция, причинность и смещения - Ложная корреляция
    • связь между X и Y вызвана не их взаимодействием, а влиянием третьей, скрытой переменной Z на оба фактора
  27. Парадокс Симпсона
    • Если одна группа численно доминирует или имеет совершенно другие базовые показатели, объединение данных искажает выводы
  28. Автокорреляция
    • Это корреляция ряда с самим собой, но со сдвигом во времени. Означает инерцию процесса
  29. Объясните механизм возникновения неравенства (распределения Больцмана-Гиббса) в модели Simple Economy




Практические вопросы

  1. Постройте визуализацию распределения количественной переменной и определите форму распределения.#* CODAP: Перетащить переменную на ось графика. Получится точечная диаграмма (dot plot). Можно сгруппировать в «бары» (fuse dots into bars) или включить гистограмму
    • RAWGraphs Datawrapper
  2. Постройте диаграмму рассеяния (Scatter Plot) для двух переменных и визуально оцените наличие связи
    • R Команда plot(x, y) CODAP: Перетащить одну переменную на ось X, другую на ось Y.
    • Если точки выстраиваются в диагональное облако — связь есть
  3. Сравните распределения количественной переменной для разных категорий, используя параллельные графики
  4. Постройте «ящик с усами» (Box Plot) и определите наличие выбросов в данных
  5. Используя RAWGraphs, постройте диаграмму для визуализации части и целого
  6. Постройте несколько графиков на одном экране в CODAP для поиска многомерных связей
  7. Рассчитайте основные описательные статистики (среднее, медиана) для набора данных
  8. Сгруппируйте данные по категориальной переменной и рассчитайте среднее значение для каждой группы
  9. Создайте сводную таблицу (Pivot Table) для подсчета количества объектов в каждой категории
  10. Рассчитайте стандартное отклонение и объясните, что оно показывает в данном контексте
  11. Постройте линию тренда (линейную регрессию) на диаграмме рассеяния и определите её наклон
  12. Рассчитайте коэффициент корреляции Пирсона для двух переменных
  13. Оцените качество модели регрессии с помощью коэффициента детерминации
  14. Используя уравнение регрессии, сделайте прогноз значения Y для заданного X
  15. Отфильтруйте данные, оставив для анализа только те объекты, которые удовлетворяют определенному условию
  16. Экспортируйте результаты анализа (таблицу или график) для вставки в отчет
  17. Используя модель Simple Economy в NetLogo запустите симуляцию и соберите данные о распределении богатства через 500 шагов
  18. Используя плагин Sampler в CODAP, выполните симуляцию подбрасывания монеты (или кубика) 100 раз
  19. Создайте новую переменную на основе существующей (например, логарифм дохода) для нормализации распределения