ИНДИВИДУАЛЬНОЕ ДОМАШНЕЕ ЗАДАНИЕ No1 Шаг 1. Выбор данных и формирование датасета 1. Перейти на сайт Росстата: https://rosstat.gov.ru/folder/210/document/13204 RLMS : https://www.hse.ru/rlms/spss Либо любого другого статистического источника макроданных. Требования к выбору показателей: - Выбрать минимум 2 количественных показателя , имеющих потенциальную взаимосвязь Один - результативный (зависимым ) , н есколько - факторными (независимыми) - Характер связи должен быть логически обоснован. Примеры корректных наборов: Результативный показатель (Y) Возможные регрессоры (X) Средняя заработная плата Инфляция, безработица, ВРП на душу населения Численность населения Рождаемость, смертность, миграция Оборот розничной торговли Доходы населения, уровень безработицы Объем инвестиций ВРП региона, госрасходы, кредитные ставки Уровень безработицы ВРП, численность трудоспособного населения 3. В скрипте и отчете обосновать выбор факторов: почему именно эти показатели , чем обоснована взаимосвязь; как предполагается влияние регрессоров на результат (сила и направление связи). 4. Датасет должен содержать: ≥ 30 наблюдений ; ≥ 3 - 10 фактора + 1 результирующая переменная Шаг 2. Загрузка данных в R и первичная обработка В R - Studio создаёте файл ФИО_IDZ_1.r Рисунок 1 – Шаг 2 «Загрузка данных» Примечание: для Windows в «путь к файлу» ставим двойной слеш (//) Рисунок 2 – Шаг 2 «Обработка пропусков» Если в данных были обнаружены пропущенные значения, то их необходимо заменить. Поскольку переменные являются количественными и могут содержать выбросы, для корректного восстановления данных пропуски заменяем медианой соответствующего показателя, что является устойчивым методом обработки пропусков и не искажает распределение выборки. Что нужно сделать в отчете: Просмотреть структуру данных ; Подсчитать пропуски ; Переименовать переменные на латиницу и записать и зменения в отчёте Шаг 3. Описательная статистика Необходимо выполнить: Инструмент Что выполнить Базовые функции R mean, min, max, sd, summary Пакеты psych , skimr describe(data) + интерпретация Визуализации распределения гистограммы, плотность, boxplot , facet - гистограммы Рисунок 3 – Шаг 3 «Описательные статистики» Что нужно сделать в отчете : К ратко описать основные показатели (среднее, медиана, размах, асимметрия, эксцесс) ; С делать выводы. Шаг 4. Проверка нормальности распределения ( пример для 1 показателя, необходимо произвести проверку по всем показателям ) Рисунок 4 – Шаг 4 «Проверка на нормальность» Необходимо сделать: Описательная статистика; Гистограмма + плотность; Q - Q plot; Boxplot; 4 теста на проверку на нормальность: Шапиро - Уилка , Колмогорова - Смирнова, К - С с поправкой Лиллиефорса (lillie.test), Андерсона - Дарлинга В отчёте: для каждого теста – интерпретация, описать, стоит ли на него опираться для вашей выборки. Шаг 5. Визуализация Сделать 3 boxplot’а по 1 – 2 показателям, как требует задание: График Группировка Boxplot No1 ≥3 федеральных округов Boxplot No2 ≥3 регионов внутри 1 округа Boxplot No3 Один показатель по разным годам Также для второго показателя (того, что не анализировали на нормальность) - выбрать 1 график из списка: Dotchart Гистограмма Q - Q plot Шаг 6: Множественная линейная регрессия После проверки нормальности показателей необходимо: 1. Проверить корреляцию между переменными исключить сильную мультиколлинеарность (r > 0.8 – 0.9 между факторами) 2. Построить множественную линейную регрессию 3. Проанализировать качество модели: значимость модели (F - тест) значимость коэффициентов (t - тест, p - значения) R² и Adjusted R² проверка остатков на нормальность и гетероскедастичность 4. Сформировать прогноз на основе построенной модели Рисунок 5 – Шаг 6 «Формирование модели» Рисунок 6 – Шаг 6 «Прогноз» Краткие выводы, которые должны быть в отчёте после регрессии : проверена ли гипотеза о связи между переменными какие факторы значимо влияют на Y является ли модель качественной (по R², тестам и диагностике остатков) можно ли использовать модель для прогноза полученный прогноз + его интерва л. В результате выполнения ИДЗ1 должны быт ь сформированы 3 документа: 1. Отчет о выполнении ИДЗ1 2. Скрипт 3. Презентация Требования к оформлению ИДЗ1 В результате выполнения ИДЗ - 1 необходимо подготовить 3 файла : No Документ Формат Название файла 1 Отчёт о выполнении ИДЗ - 1 .docx Фамилия_Имя_IDZ_1.docx 2 Скрипт (рабочий код) .r Фамилия_Имя_IDZ_1.r 3 Презентация для защиты ИДЗ .pptx Фамилия_Имя_IDZ_1.pptx Все файлы должны быть названы латиницей , без пробелов, без кириллицы. Т ребования к отчёту (.docx) Объём: 12 – 20 страниц без учёта приложений Шрифт: Times New Roman, 12 Интервал: 1.5 Поля: стандартные Выравнивание: по ширине Нумерация страниц: обязательна Структура и содержание отчёта по разделам Раздел Содержание Титульный лист Название работы, ФИО, группа, год, ВУЗ 1. Введение Краткое описание цели ИДЗ, выбранной темы и логики выбора показателей 2. Источник и описание данных Источники данных (ссылки ), описание переменных, период, объём выборки 3. Подготовка данных (Data Preprocessing) • Переименование переменных на латиницу • Обработка пропусков (описать способ и причину выбора метода) 4. Описательная статистика • Таблица описательных статистик • Скриншоты вывода summary , describe , skim • Интерпретация основных метрик (среднее, медиана, асимметрия, эксцесс) 5. Анализ распределения показателей • Гистограммы, Q - Q plot, Boxplot • Интерпретация формы распределения (норм. или нет) 6. Проверка нормальности распределения • Тесты : Shapiro - Wilk, Lilliefors, K - S, Anderson - Darling • Вывод по тестам, обоснование, на какие опира ться 7. Корреляционный анализ • Корр. матрица, ggpairs • Вывод о наличии связи и мультиколлинеарности 8. Множественная линейная регрессия • Формула модели и обоснование выбора переменных • Выводы из summary или describe • Значимость коэффициентов, R², Adjusted R² • Диагностика модели: остатки, норм альность, гетероскедастичность • При необходимости - доработка модели 9. Прогнозирование • Прогноз с 95% вероятностью • Интерпретация прогноза 10. Итоги и выводы Обобщающие выводы по описательной статистике , нормальности, регрессии и прогнозу Приложения Код, дополнительные графики, таблицы В отчёте обязательно должна быть интерпретация , не только графики и таблицы. Т ребования к скрипту (.r) Цель: код должен полностью воспроизводиться на другом компьютере без ошибок. Структура скрипта (обязательно оформление оглавления) : Блок 0. Подключение пакетов (с комментариями для чего каждый) Блок 1. Загрузка данных Блок 2. Предобработка данных Блок 3. Описат ельная статистика Блок 4. Визуализация распределений Блок 5. Проверка нормальности Блок 6. Корреляционный анализ Бл ок 7. Множественная регрессия, диагностика Блок 8. Прогноз За ключение/сохранение результатов Требование Детали Комментарии Каждый логический блок должен быть прокомментирован Код С труктурированный, с оглавлением, с использованием команд и функций, которые были изучены в курсе Графики С подписанными строками, с названием Т ребования к презентации (.pptx) Кол - во слайдов: 8 – 12 Стиль: строгий, визу ально понятный, использованием корпоративного шаблона, на слайдах - минимум текста, максимум графиков (возможно использовать скриншоты R ). Рекомендуемая структура презентации : No Слайд Содержание 1 Титульный Название ИДЗ, ФИО, группа, дата 2 Цель и задачи 2 - 4 пункта: что исследуем и зачем 3 Данные Источник, период, выборка, показатели 4 Предобработка Что было сделано: переименование, пропуски, дубликаты 5 Описательная статистика Главное: 1 таблица, 2 ключевых вывода 6 Распределение показателей 2 – 3 графика, вывод о нормальности 7 Корреляции ggpairs, вывод 8 Модель регрессии Формула, значимость, R², ключевые коэффициенты 9 Проверка модели Остатки, тесты, 2 – 3 вывода 10 Прогноз Что предсказано, вывод 11 Итоги Главные выводы исследования 12 Вопросы З аключительный слайд Что нужно продемонстрировать на защите: Понимание выбора показателей и логики связи между ними Умение читать и интерпретировать результаты статистических тестов Объяснять качество модели и её ограничения , умение читать код Делать выводы на основе данных, а не только строить графики Критерии оценивания ИДЗ1 (20 баллов) No Критерий Что оценивается Баллы 1 Выбор данных и корректность датасета Обоснованный выбор показателей, логика связи между ними, корректная выгрузка данных, отсутствие ошибок в структуре данных, выполнены требования к датасету 0 – 3 2 Предобработка данных Переименование переменных на латиницу, обработка пропусков (метод и обосн ование), устранение дубликатов по регионам, корректная очистка и описание изменений 0 – 2 3 Описательная статистика Представление базовых и расширенных описательных статистик, использование нескольких пакетов, интерпретация результатов, выявление особенностей данных 0 – 3 4 Анализ распределения и проверка нормальности Визуальный анализ (гистограммы, Q - Q, boxplot), проведение всех требуемых тестов (Shapiro, Kolmogorov, Lilliefors, A - D), корректная интерпретация и выводы 0 – 3 5 Корреляционный анализ Построение корреляционной матрицы, ggpairs/heatmap, проверка мультиколлинеарности, выводы 0 – 2 6 Множественная линейная регрессия и диагностика модели Корректный выбор зависимой и независимых переменных, построение модели, анализ коэффициентов, R², проверк а остатков (нормальность, гетероскедастичность), VIF, выводы 0 – 3 7 Прогнозирование на основе модели Формирование прогноза + интервал доверия, интерпретация прогноза и ограничений модели 0 – 1 8 Качество отчёта (.docx) Логика, структура, полнота разделов и выводов, корректность терминологии, наличие подписей к рисункам/таблицам, отсутствие “вставленных без объяснения” графиков, грамотность 0 – 2 9 Качество скрипта (.r) Структурированность, читаемость, наличие комментариев, воспроизводимость кода, отсутствие л ишних команд, корректность запуска на другом ПК 0 – 1 10 Презентация (.pptx) и защита Чёткая структура, визуализация результатов, умение объяснить результаты, ответы на вопросы, умение интерпретировать статистику, а не пересказывать код 0 – 2 Дополнительные штрафы и бонусы : Тип Описание Баллы Штраф Отсутствие интерпретаций (только графики или только код без текста) – 2 Штраф Файлы названы неправильно или не в полном комплекте – 1 Штраф Ответы на вопросы преподаватели не полные, не содержательные – 2 Бонус Использование дополнительных методов анализа +1 Бонус Глубокий аналитический вывод, сопоставление с внешними источниками данных +1