Финальный проект специализации МФТИ и Яндекса "Машинное обучение и анализ данных"
Задача этого проекта — научиться предсказывать количество поездок в ближайшие часы в каждом районе Нью-Йорка. Для того, чтобы её решить, сырые данные необходимо агрегировать по часам и районам. Агрегированные данные будут представлять собой почасовые временные ряды с количествами поездок из каждого района. Похожие задачи возникают на практике, если вам необходимо спрогнозировать продажи большого количества товаров в большом количестве магазинов, объём снятия денег в сети банкоматов, посещаемость разных страниц сайта и т.д.
Помимо прогнозирования количества поездок из каждой активной геозоны Нью-Йорка необходимо представить интерактивное демо проекта с наглядным отображением результатов модели (прогноз на 1-6 часов).
Первые 6 недель посвящены исследованию и обработке данных, отображению информации на карте, построению моделей ARIMA, линейной регрессии и выбору финальной модели (градиентный бустинг). Неделя 7 -- демо.
- Неделя 1 -- знакомство с данными и их обработка,
- Неделя 2 -- работа с геоданными,
- Неделя 3 -- базовая модель ARIMA,
- Неделя 4 -- кластеризация географических зон и ARIMA для каждой из них,
- Неделя 5 -- линейная модель,
- Неделя 6 -- финальная модель (градиентный бустинг),
- Неделя 7 -- лаконичная демонстрация результатов проекта.
Пс. пожалуйста, сообщите на если демонстрация перестала работать (она была загружена на rstudiobconnect во время бета-тестирования).