Transformer : 誤差逆伝播

誤差逆伝播

作成: 2025-05-23
更新: 2025-06-03

「損失」
「勾配」
「勾配降下」
- パラメータの更新では、損失を最小化する必要がある。
  この手法の一つが，勾配降下法。
- 損失の (各パラメータに対する) 勾配を計算する
- 「損失ベクトルが，少しずつが変形されて，Embedding 層 (トークンベクトル，各種重みベクトルの所在) まで行く。」
「逆伝播」
- 勾配を効率的に計算するためのアルゴリズム。
- Chain Rule (連鎖律) で勾配を展開
誤差逆伝播」による勾配の流れ
PyTorchにおける逆伝播
- PyTorchでは、自動微分と呼ばれる技術を用いて、逆伝播を自動的に計算することができる。
- 自動微分とは、計算グラフを構築し、各ノードの勾配を自動的に計算する技術。
- PyTorchでは、テンソル演算がグラフとして表現される。
  そして、backward() 関数を呼び出すことで、グラフ上の各ノードの勾配を自動的に計算することができる。
- 損失関数の勾配の計算を，backward() 関数で，自動的に行う
- 計算された勾配を用いて、パラメータを更新
コード
embedding.weight
- 勾配を受け取るパラメータ
- 更新対象のトークンベクトルは，embedding.weight の一部になっている。
- optimizer.step() は，embedding.weight を更新する。
- これにより，勾配を送ったところ (ここでは，input_ids のトークンベクトル) が更新される。
スパース更新
- 「使われたIDの行だけ」が更新
- PyTorchの nn.Embedding は，内部的に，スパースな更新をする
- optimizer.step() を行うと、つぎのコードで，使われたトークンIDに対応するベクトルだけが更新される：
- スパース更新は、巨大語彙（数万〜数百万）でも効率的に学習できる鍵となっている。