p_ml_3-4-5(質問管理番号)
回答日時: | 12/20 |
Q1: | ■該当箇所 −𝜂(𝜕𝐿/𝜕𝑎)+ 𝛼(𝜃𝑡 − 𝜃𝑡−1) = 0.0 + 0.9 × (−0.1) = −0.09 ■ご質問内容 |
A1: | (𝜃𝑡 − 𝜃𝑡−1) -> -0.1 は係数を掛ける前のモメンタム項、つまり1回前のパラメータの更新量を表しています。 計算式通りに計算するならば、パラメータaのt回更新後の値をa_{t}とすると、2回目のパラメータ更新(t=2)時の𝜃𝑡 − 𝜃𝑡−1は 𝜃𝑡 − 𝜃𝑡−1 = a_{1} – a_{0} = 0.9 – 1.0 = -0.1 となります。 改めてモメンタムの更新式を書くと、 w(更新後) ← w(更新前) – 学習率×勾配+モメンタムの係数×1回前のパラメータの更新量です。1回前のパラメータ𝜃 (a)の更新量のことを式で書くと、 𝜃𝑡 − 𝜃𝑡−1 (a_{t} – a_{t-1})となります。 |
Q2: | −𝜂×𝜕𝐿/𝜕𝑎 + 𝛼(𝜃𝑡 − 𝜃𝑡−1) = 0.0 + 0.9 × (−0.1) = −0.09
■ご質問内容 ※問3.3の更新式との関係について w(更新後) ← w(更新前) – 学習率×勾配+モメンタムの係数×1回前のパラメータの更新量 と回答を頂きましたが、今回の設問は 「a bの更新量を求める」 問題であるため、 – 学習率×勾配+モメンタムの係数×1回前のパラメータの更新量 回答に記載されている内容であって、問題が 「a bのパラメータの値を求める」 という問題の場合、問3.3の更新式で算出するという理解で宜しいのでしょうか? |
A2: | どちらもその理解で正しいです。 |