Skip to content

About the course (in Russian)

Yury Kashnitskiy edited this page Aug 24, 2018 · 43 revisions

ODS stickers

Анонс курса на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале #mlcourse_open, объявления – в группе ВКонтакте.

Цель курса – развить понимание основных концепций машинного обучения (теория) и дать навыки его использования (практика). Поэтому статьи не без математики и поэтому в курсе множество активностей: домашние задания, соревнования на Kaggle Inclass, слушатели сами пишут тьюториалы по интересным темам и выполняют индивидуальные проекты.

Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа. Подробнее – в Wiki репозитория.

Статьи на Хабрахабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. Классификация. Деревья решений
  4. Логистическая регрессия + обсуждение соревнования Kaggle
  5. Случайный лес
  6. Регрессия, регуляризация
  7. Обучение без учителя
  8. Признаки, SGD, Vowpal Wabbit
  9. Временные ряды
  10. Градиентный бустинг

Беседы о Data Science

  1. Александр Дьяконов
  2. Константин Воронцов
  3. Евгений Соколов
  4. Дмитрий Ветров
  5. Эмели Драль и Виктор Кантор
  6. Сергей Николенко

Домашние задания

Актуальные задания будут объявляться раз в неделю при очередной сессии курса. Тут вы найдете демо-версии заданий:

  1. Анализ данных по доходу населения UCI Adult, nbviewer
  2. Визуальный анализ данных о публикациях на Хабрахабре, nbviewer
  3. Деревья решений в игрушечной задаче и на данных Adult репозитория UCI, nbviewer
  4. Прогнозирование популярности статей на TechMedia (Хабр) с помощью линейных моделей, nbviewer
  5. Логистическая регрессия и случайный лес в задаче кредитного скоринга, nbviewer
  6. Линейная регрессия, Lasso и RF-регрессия в задаче по определению качества вина, nbviewer
  7. Обучение без учителя: метод главных компонент и кластеризация, nbviewer
  8. Реализация алгоритмов онлайн-обучения, nbviewer
  9. Анализ временных рядов, nbviewer
  10. Прогнозирование задержек вылетов (соревнование Kaggle Inclass), nbviewer

Соревнования Kaggle Inclass

  1. Catch Me If You Can: Intruder Detection through Webpage Session Tracking. Kaggle Inclass
  2. How good is your Medium article? Kaggle Inclass
  3. Категоризация покупок. Kaggle Inclass, ссылка для участия

Wiki-страницы этого репозитория:

  • Из чего состоит курс. Тут собраны активности, за которые можно получить баллы в 3-ей сессии этого курса (с 5 февраля по 20 апреля 2018 г)
  • Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
  • План совместного прохождения курса cs231n c 23.04.2018
  • Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
  • ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
  • Топ-100 1-ой сессии курса. 1-я сессия курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников.
  • Топ-100 2-ой сессии курса. 2-я сессия курса прошла с 6 сентября по 17 ноября 2017 года – добавились индивидуальные проекты. Более 1300 участников.
  • Тьюториалы и проекты. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных и выполнить индивидуальный проект по предложенному плану.

Поддержать курс можно на краудфандинговой платформе Patreon