p_ml_3-4-5(質問管理番号)

回答日時: 12/20
Q1: ■該当箇所
−𝜂(𝜕𝐿/𝜕𝑎)+ 𝛼(𝜃𝑡 − 𝜃𝑡−1) = 0.0 + 0.9 × (−0.1) = −0.09

■ご質問内容
上記の(𝜃𝑡 − 𝜃𝑡−1) -> -0.1とは、どのように理解すれば宜しいでしょうか?
問 3.4.3で算出した 「a=-0.1」を元に質問「p_ml_13-1-3」から
w ← w(初回はZERO) – (–0.1)
という考えではないのでしょうか?
宜しくお願い致します。

A1:  (𝜃𝑡 − 𝜃𝑡−1) -> -0.1
は係数を掛ける前のモメンタム項、つまり1回前のパラメータの更新量を表しています。
計算式通りに計算するならば、パラメータaのt回更新後の値をa_{t}とすると、2回目のパラメータ更新(t=2)時の𝜃𝑡 − 𝜃𝑡−1は
𝜃𝑡 − 𝜃𝑡−1 = a_{1} – a_{0} = 0.9 – 1.0 = -0.1
となります。
改めてモメンタムの更新式を書くと、
w(更新後) ← w(更新前) – 学習率×勾配+モメンタムの係数×1回前のパラメータの更新量です。1回前のパラメータ𝜃 (a)の更新量のことを式で書くと、
𝜃𝑡 − 𝜃𝑡−1 (a_{t} – a_{t-1})となります。
Q2: −𝜂×𝜕𝐿/𝜕𝑎 + 𝛼(𝜃𝑡 − 𝜃𝑡−1) = 0.0 + 0.9 × (−0.1) = −0.09

■ご質問内容
前回、ご回答いただきありがとうございました。 度々で申し訳ございませんが、もう少し質問させてください。
※(𝜃𝑡 − 𝜃𝑡−1) -> -0.1について1回前のパラメータの更新量 -> 1回目の更新量 = -1 という、理解で宜しいでしょうか? 申し訳ございません。

※問3.3の更新式との関係について w(更新後) ← w(更新前) – 学習率×勾配+モメンタムの係数×1回前のパラメータの更新量 と回答を頂きましたが、今回の設問は  「a bの更新量を求める」 問題であるため、  – 学習率×勾配+モメンタムの係数×1回前のパラメータの更新量 回答に記載されている内容であって、問題が  「a bのパラメータの値を求める」 という問題の場合、問3.3の更新式で算出するという理解で宜しいのでしょうか?

A2: どちらもその理解で正しいです。