Skip to content

Files

Latest commit

 

History

History
76 lines (58 loc) · 4.72 KB

optim.md

File metadata and controls

76 lines (58 loc) · 4.72 KB

Оптимизаторы

Gradient Descent

Источник

SGD mini-batch

Оптимизация весов модели по градиентам, полученных с loss function относительно весов θ , с некоторым learning rate η , по её mini-batch'ам, а не конкретным примерам или всей выборки. Для обновление параметров мы усредняем по mini-batch градиенты. θ = θ η θ J ( θ ; x ( i : i + n ) ; y ( i : i + n ) )

Vanila GD

Оптимизация по всей выборки. Для обновление параметров мы усредняем градиенты. θ = θ η θ J ( θ )

SGD

Оптимизация по одному примеру. θ = θ η θ J ( θ ; x ( i ) ; y ( i ) )

Проблемы классического подхода

  • выбор learning rate;
  • отсутствие регулировки learning rate в течение обучения;
  • одинаковый learning rate для данных разной частоты;
  • попадание в suboptimal minimum.

Momentum

Источник

Описание

momentum

Моментум — это метод, который позволяет ускорить SGD и погасить колебания. Методу удаётся это сделать за счёт добавления вектора обновления c предыдущего шага, умноженного на коэффициент γ . v t = γ v t 1 + η θ J ( θ ) θ = θ v t

Интуитивно

Моментум делает наш вектор градиент более похожем на мяч на который теперь действует сила притяжения, из-за чего он скатывается по сколону быстрее и быстрее. Бесконечно сохранять скорость ему не даёт сила сопротивления "воздуха" γ (сохраняемая энергия) при кажом степе. Когда же он перескакивает низ склона залетая на противоположный склон знак градиента меняется и скорость постепенно замедляется после чего, направление меняется и он катится снова к низу. Так он итеративно и доходит до минимума.


RMSprop

Источник

Метод пытается решить проблему колебаний, как и Momentum, но заходя с другой стороны RMSprop вычисляет learning rate для каждого параметра отдельно, как Adagrad.

  1. Метод позволяющий решить проблему Adagrad с радикально уменьшающимися learning rates;
  2. Реализация Rprop для mini-batch.

$$E[g^2]t = 0.9E[g^2]{t-1} + 0.1g_t^2$$ θ t = θ t 1 η E [ g 2 ] t + ϵ g t


Adam

Источник

Описание

Adaptive Moment Estimation - adaptive learning rate метод. В дополнение к сохранению экспоненциального среднего квадратов градиентов v t как Adadelta и RMSprop, также сохраняет экспоненциальное среднее предыдущих градиентов m t , как Momentum. m t = β 1 m t 1 + ( 1 β 1 ) g t u t = β 2 u t 1 + ( 1 β 2 ) g t 2

m t и u t сдвинуты к нулю, чтобы продействовать этому вычисляют bias-corrected estimates: m ^ t = m t 1 β 1 t u ^ t = u t 1 β 2 t

θ t = θ t 1 η u ^ t + ϵ m ^ t

Интутивно

Если Momentum шар, то Adam это тяжёлый шар с сопротивлением, который будет предпочитать минимум на поверхности функции потерь.


NAdam

Описание

Как Adam только, если Adam=Momentum+RMSprop, то Nadam=NAG+RMSprop. θ t + 1 = θ t η u ^ t + ϵ ( β 1 m ^ t + ( 1 β 1 ) g t 1 β 1 t )