Up | パラグラフの生成 | 作成: 2023-06-08 更新: 2025-06-16 |
パラグラフ生成は,どんな仕組みになっているか? 先ず,これを誘導するテクスト (文脈) が存在している。 このテクストのトークン分割を a_1, a_2, ‥‥, a_m とし,これに対応するトークンベクトルの列を x_1, x_2, ‥‥, x_m とする。 ( a_1, a_2, ‥‥, a_m ) は,人間のテクストである。 これを,Transformaer のテクストに変換する。 それはどんなものになるか? イメージは,R^D の中で x_1, x_2, ‥‥, x_m を,この順になめらかな曲線でつないだもの。 曲線は,重み行列 (固定) が決める。 さて,x_m に立って曲線の向きの先を見ると,トークンベクトルの点が1つ,そして1つだけ見える。── y_1 とする。 この y_1 に,曲線がなめらかに延長される。 次に y_1 に立って,曲線の向きの先を見ると,トークンベクトルの点が1つ,そして1つだけ見える。── y_2 とする。 y_2 に,曲線がなめらかに延長される。 これが,曲線の向きの先にトークンベクトルの点が見えなくなるまで続けられる。 こうして,トークンベクトル列 y_1, y-2, ‥‥, y_n が得られる。 y_n において「曲線の向きの先にトークンベクトルの点が見えなくなる」のは,y_1, y-2, ‥‥, y_n がもともと決定されているからである。 x_1, x_2, ‥‥, x_m が与えられてところで,y_1, y-2, ‥‥, y_n は決定している。 y_1, y-2, ‥‥, y_n の生成は,既に決定しているトークンベクトル列を,頭から1つずつ拾っているだけである。 そして y_1, y-2, ‥‥, y_n を,人間のトークン列 b_1, b_2, ‥‥, b_n に戻す。 これがパラグラフの生成である。 通説は,パラグラフの生成を,つぎのことばで説く: 「連想 ──トークンAから連想されるトークン」 しかし,なんとも不思議な話である。 つぎの疑問を持つのが,ふつうである: トークンベクトルが1つ,しかも1つだけ見える」 って,どういうこと? 「b_1, b_2, ‥‥, b_n が応答テクストになっている」 って,どういうこと?」 この疑問に対する答え方は:
Transformer の勉強は,Transformer の数学の勉強である。 この数学を理解すれば,疑問は解消される? そうはいかない。 Transformer は,「大数」の世界なのである。 「曲線の端に立ってこの先を見ると,トークンベクトルが1つ,しかも1つだけ見える」は,大数の世界の現象である。 トークンベクトルの数が100万になっても,1万を超える次元の数空間の中に点在すれば,上の景色をつくれるということである。 人は,大数で起こることがわからない。 わからないので,「量質転化」とか「創発 emergence」のようなことばでごまかし,それで済ますことになる。 「大数の世界がわかる」の「わかる」は,<悟り>の趣きになりそうである。 |