「Transformer がわかる」の形 : Transformer とは何か

Transformer とは何か

作成: 2025-05-25
更新: 2025-06-25

｢Transformer がわかる｣の形

使用記号

　I.　脳

トークンは，ID が１から順につけられている。
ID がｎのトークンを T( n ) で現す。
トークンの数，即ち ID の最後を，NT (number of tokens) で表す。
ID が n のトークンには，ID がｎのベクトルが対応づけられている。
──以下，トークンベクトルと呼ぶ。
ID がｎのトークンベクトルを TV( n ) で現す。
トークンベクトルは，固定次元であり，これを D と表す。
いまの Transformer は，D が１万を超える。
トークンベクトルは，D次元数空間の点に見なせる──以下，トークン点と呼ぶ。

トークンベクトル集合体
　──TV (token vector)
重み行列・Attention機構・Nonlinearity の組み合わせ
　──W (weight)

　II.　テクストの記憶

p_i ( i = 1, ‥‥, m ) は, 「ほぼ one-hot」
p_ik ( i < m ) が「ほぼ1」ならば，k = ID_(i+1)
S が質問テクストのとき，つぎのようにして生成されるトークン点列 [ y_1, y_2, ‥‥ ] は，良質な応答のトークン点列になる：
　　[ x_1, ‥‥, x_m ] → x_m のつぎ y_1
　　[ x_1, ‥‥, x_m, y_1 ] → y_1 のつぎ y_2
　　　　　：

質問の要点を示する
応答としてこれから語ることの大枠を示す
大項目から小項目へ降り，＜解説＞のパラグラフを生成する
再帰的に大項目と小項目の間を移動する
まとめをする
今後の展開を提案する

「	Transformer 脳は，つくったのではなく，育てたのである。鉢植えした植物が条件を整えれば勝手に育つように， Transformer 脳は勝手に育った。実際，脳が勝手に育つという形でしか，脳を得ることはできない。このことは，重みを多用した Transformer の学習アルゴリズムを見ていけば，納得される。さあ，そのアルゴリズムをこれから見ていくとしよう！」

　III.　｢話の糸」

　　x_i^(ℓ) + 　　　├────────┐ 　　　│　　　　　Self-Attention 　　　│　　　　　　　　↓ 　　　│　　　　　　　z_i^(ℓ) 　　　│←─ Residual ─┘ 　　　│ 　　　│←─ LayerNorm (正規化) 　　　│ 　　　├────────┐ 　　　│　　　　　　　FFN 　　　│　　　　　　　　↓ 　　　│　　　　　　　z'_i^(ℓ) 　　　│←─ Residual ─┘ 　　　│ 　　　│←─ LayerNorm 　　　↓ 　　x_i^(ℓ+1)

　IV.　記憶のぼやけ

　V.　トークンを糸に乗せる術

　VI.　｢糸」の含蓄：｢トークンは意味をもたない｣

　VII. 「応答」の学習

どうしてこんな間違ったことが言えるのか?

　VIII.　応答生成 (1) ──話の糸を伝う

Transformer 脳が [ x_1, ‥‥, x_m ] を受け取ることは，応答 [ y_1, ‥‥, y_n ] の糸口を摑むことである。
そして，糸口を摑むことは，続けてその糸を伝うということである。
こうして応答は，１つずつトークンを現すより前に，決定している。

　IX.　応答生成 (2) ──話の糸を摑む

質問の要点を押さえ
応答としてこれから語ることの大枠を示す
大項目から小項目へ降り，＜解説＞のパラグラフを生成する
再帰的に大項目と小項目の間を移動する
まとめをする
今後の展開を提案する

応答生成は，小項目のパラグラフ生成。
　　そのパラグラフを大項目・中項目・小項目の枠に配置。

　X.　テクストの修飾

　.　＜悟り＞