Up | 例 : 「応答」 の学習 | 作成: 2025-06-13 更新: 2025-06-13 |
よって,「応答」を取り上げても重複になる。 しかし,重複になることは,実際に見てわかることである。 そして翻訳の場合は,入力文と出力文が同型に近くなるが,この「同型」が何か要点であるかのように,誤解されるかも知れない。 そこで,「応答」の場合で,学習方法を改めて確認しておくことにする。
トークン/サブワード分割し,対応するトークンベクトルに位置エンコーディングを加算したものを: 出力文 → Y = ( y_1, y_2, y_3, y_4, y_5,, y_6, ‥‥ ) = ( "日本", "の", "自", "衛", "隊", "は", ‥‥ ) そして, H^(0) = ( X, <BOS> ) H^(1) = ( X, <BOS>, "日本" ) H^(2) = ( X, <BOS>, "日本", "の" ) H^(3) = ( X, <BOS>, "日本", "の", "自" ) H^(4) = ( X, <BOS>, "日本", "の", "自", "衛" ) H^(5) = ( X, <BOS>, "日本", "の", "自", "衛", "隊" ) H^(6) = ( X, <BOS>, "日本", "の", "自", "衛", "隊", "は" ) ‥‥‥‥ 以下,k : 2 → 3 の場合を示す: (1) H^(2) を TV にとってのテクストにする K = H^(2) W_K V = H^(2) W_V (2) FFN + 残差接続 + LayerNorm
(3) (1), (2) をレイヤーの数だけ繰り返す (4) 誤差(得失)計算 p = softmax( logits ) loss = cross_entropy ( p, true ) (5) 誤差逆伝播
ちなみに,通説は《1トークン/サブワードずつ加える》を「連想ゲーム」だと説明する。 上の k : 2 → 3 だと,通説はつぎのように言う: 学習アルゴリズムのどこにも「連想ゲーム」は存在していないし,意味の確率分布で "の" の次が "自" であるはずもない。 |