Оптимизация весов модели по градиентам, полученных с loss function относительно весов
Оптимизация по всей выборки. Для обновление параметров мы усредняем градиенты.
Оптимизация по одному примеру.
- выбор learning rate;
- отсутствие регулировки learning rate в течение обучения;
- одинаковый learning rate для данных разной частоты;
- попадание в suboptimal minimum.
Моментум — это метод, который позволяет ускорить SGD и погасить колебания. Методу удаётся это сделать за счёт добавления вектора обновления c предыдущего шага, умноженного на коэффициент
Моментум делает наш вектор градиент более похожем на мяч на который теперь действует сила притяжения, из-за чего он скатывается по сколону быстрее и быстрее. Бесконечно сохранять скорость ему не даёт сила сопротивления "воздуха" γ (сохраняемая энергия) при кажом степе. Когда же он перескакивает низ склона залетая на противоположный склон знак градиента меняется и скорость постепенно замедляется после чего, направление меняется и он катится снова к низу. Так он итеративно и доходит до минимума.
Метод пытается решить проблему колебаний, как и Momentum, но заходя с другой стороны RMSprop вычисляет learning rate для каждого параметра отдельно, как Adagrad.
- Метод позволяющий решить проблему Adagrad с радикально уменьшающимися learning rates;
- Реализация Rprop для mini-batch.
$$E[g^2]t = 0.9E[g^2]{t-1} + 0.1g_t^2$$
Adaptive Moment Estimation - adaptive learning rate метод. В дополнение к сохранению экспоненциального среднего квадратов градиентов
Если Momentum шар, то Adam это тяжёлый шар с сопротивлением, который будет предпочитать минимум на поверхности функции потерь.
Как Adam только, если Adam=Momentum+RMSprop, то Nadam=NAG+RMSprop.