Skip to content

About the course (in Russian)

Yury Kashnitskiy edited this page Apr 9, 2018 · 43 revisions

ODS stickers

Анонс курса на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале #mlcourse_open, объявления – в группе ВКонтакте.

Цель курса – развить понимание основных концепций машинного обучения (теория) и дать навыки его использования (практика). Поэтому статьи не без математики и поэтому в курсе множество активностей: домашние задания, соревнования на Kaggle Inclass, слушатели сами пишут тьюториалы по интересным темам и выполняют индивидуальные проекты.

Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа. Подробнее – в Wiki репозитория.

Статьи на Хабрахабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. Классификация. Деревья решений
  4. Логистическая регрессия + обсуждение соревнования Kaggle
  5. Случайный лес
  6. Регрессия, регуляризация
  7. Обучение без учителя
  8. Признаки, SGD, Vowpal Wabbit
  9. Временные ряды
  10. Градиентный бустинг

Беседы о Data Science

  1. Александр Дьяконов
  2. Константин Воронцов
  3. Евгений Соколов
  4. Дмитрий Ветров

Домашние задания

  1. Анализ данных по сердечно-сосудистым заболеваниям, nbviewer
  2. Визуальный анализ данных по сердечно-сосудистым заболеваниям, nbviewer. Дедлайн – 18.02.18, 23.59 UTC+3
  3. Деревья решений для классификации и регрессии, nbviewer. Дополнительная часть (баллов за нее не будет) – реализация дерева решений, nbviewer. Дедлайн – 28.02.18, 23.59 UTC+3
  4. Логистическая регрессия в задаче тегирования вопросов StackOverflow, nbviewer. Дедлайн – 14.03.18, 23.59 UTC+3
  5. Случайный лес и логистическая регрессия в задачах кредитного скоринга и классификации отзывов к фильмам, nbviewer. Дедлайн – 18.03.18, 23.59 UTC+3
  6. Бьем бенчмарки в двух соревнованиях. Часть 1, "Элис", nbviewer. Часть 2, "Медиум", nbviewer. Дедлайн – 01.04.18, 23.59 UTC+3
  7. Обучение без учителя, nbviewer. Дедлайн – 04.04.18, 23.59 UTC+3
  8. Vowpal Wabbit и вопросы StackOverflow, nbviewer. Дедлайн – 15.04.18, 23.59 UTC+3
  9. Временные ряды, nbviewer. Дедлайн – 15.04.18, 23.59 UTC+3
  10. Градиентный бустинг и прогнозирование задержек вылетов, nbviewer. Дедлайн – 22.04.18, 23.59 UTC+3

Соревнования Kaggle Inclass

  1. Catch Me If You Can: Intruder Detection through Webpage Session Tracking. Kaggle Inclass
  2. How good is your Medium article? Kaggle Inclass
  3. Категоризация покупок. Kaggle Inclass, ссылка для участия

Wiki-страницы этого репозитория:

  • Из чего состоит курс. Тут собраны активности, за которые можно получить баллы в 3-ей сессии этого курса (с 5 февраля по 20 апреля 2018 г)
  • Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
  • План совместного прохождения курса cs231n c 23.04.2018
  • Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
  • ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
  • Топ-100 1-ой сессии курса. 1-я сессия курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников.
  • Топ-100 2-ой сессии курса. 2-я сессия курса прошла с 6 сентября по 17 ноября 2017 года – добавились индивидуальные проекты. Более 1300 участников.
  • Тьюториалы и проекты. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных и выполнить индивидуальный проект по предложенному плану.

Поддержать курс можно на краудфандинговой платформе Patreon