Pytorch Optimizers 01- SGD & Momentum

3 min readMay 26, 2019

--

在pytorch中，optimization的模組提供了很多方式來進行網路的反向傳播，在這篇文章簡介常用的幾個方法．

SGD

最廣為人知的一種．利用誤差和權重的偏微分，再乘上學習速率，就是權重的變化量．在這邊符號說明：

𝜃:權重

𝜂：學習速率

𝛁：梯度（gradient）

Ｊ：誤差

以下都會利用下面這個函數進行範例說明：

f(x,y)=-x²sin(x)+y²

用這個函數的目的是，它有很多的局部最小值，可以來展示這些優化方法大多只能求出局部最小值，無法求出全域最小值．

SGD的運算如下圖

可以用上面的算式求出權重的更新值．

以下是一些SGD的參數搭配：

下圖藍色點為起點，灰色點為終點，經過100次的迭代，在不同學習速率下的展示．

SGD with momentum

這個有兩種方法，一種是普通的momentum，另一種是NAG( Nesterov Accelerated Gradient)兩者都多了一個v的變數來計算權重，在這邊我們可以調整的參數有：

𝛄: momentum ratio

𝜂：學習速率

Momentum的計算範例如下：

而NAG的算法如下：

以下是一些參數調整範例：

我們發現NAG在收斂的時候，如果參數沒調好，就會不小心跑去其他的local miminum上面，這是個頗有趣的特性．

Written by 吳政龍

No responses yet

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams