Up | 例 :「翻訳」の学習 | 作成: 2025-06-13 更新: 2025-06-13 |
出力文(フランス語):"Je t'aime" 対応するトークンベクトルに位置エンコーディングを加算したものを: Y = ( y_1, y_2, y_3 ) = ( "Je", "t', "aime" ) そして, H^(0) = ( X, <BOS> ) H^(1) = ( X, <BOS>, "Je" ) H^(2) = ( X, <BOS>, "Je", "t'" ) H^(3) = ( X, <BOS>, "Je", "t'", "aime" ) 以下,k : 2 → 3 の場合を示す: (1) H^(2) を TV にとってのテクストにする K = H^(2) W_K V = H^(2) W_V (2) FFN + 残差接続 + LayerNorm
(3) (1), (2) をレイヤーの数だけ繰り返す (4) 誤差(得失)計算 p = softmax( logits ) loss = cross_entropy ( p, true ) (5) 誤差逆伝播
ここで注意すべきは,p も true も, 「H^(2) = ( X, <BOS>, "Je", "t'" ) の次は "aime"」 を示すものではない,ということである。 ここには, 《 p と true から loss を計算し誤差逆伝播する》 の自動処理しかない。 くれぐれも誤解せぬように! 「H^(2) = ( X, <BOS>, "Je", "t'" ) の次が H^(3) = ( X, <BOS>, "Je", "t'", "aime" ) なのは, 「H^(2) に続く確率が高いのは "aime"」 だからではない。 はじめから,"Je", "t'", "aime" の順番で続けることになっているから, H^(2) のつぎは H^(3) = ( X, <BOS>, "Je", "t'", "aime" ) なのである。 |