Up パラグラフの生成 作成: 2023-06-08
更新: 2025-06-16


    はじめに,パラグラフが生成される空間の確認から:
    • トークン1つに,固定次元Dの数ベクトルが1つ対応している。
      この数ベクトルがトークンベクトルで,トークンベクトル全体が TV。
    • トークンベクトルの次元Dは1万を超える。
      トークンベクトルは,「D次元数ベクトル空間 R^D の点」がこれのイメージになる。
    • また,意味論的なイメージでは:
        R^D : 「言語空間」 「意味空間」
        R^D におけるトークンベクトルの分布 :「意味分布」


    パラグラフ生成は,どんな仕組みになっているか?

    先ず,これを誘導するテクスト (文脈) が存在している。
    このテクストのトークン分割を
       a_1, a_2, ‥‥, a_m
    とし,これに対応するトークンベクトルの列を
       x_1, x_2, ‥‥, x_m
    とする。

    ( a_1, a_2, ‥‥, a_m ) は,人間のテクストである。
    これを,Transformaer のテクストに変換する。
    それはどんなものになるか?
    イメージは,R^D の中で x_1, x_2, ‥‥, x_m を,この順になめらかな曲線でつないだもの。
    曲線は,重み行列 (固定) が決める。

    さて,x_m に立って曲線の向きの先を見ると,トークンベクトルの点が1つ,そして1つだけ見える。── y_1 とする。
    この y_1 に,曲線がなめらかに延長される。
    次に y_1 に立って,曲線の向きの先を見ると,トークンベクトルの点が1つ,そして1つだけ見える。── y_2 とする。
    y_2 に,曲線がなめらかに延長される。
    これが,曲線の向きの先にトークンベクトルの点が見えなくなるまで続けられる。
    こうして,トークンベクトル列 y_1, y-2, ‥‥, y_n が得られる。

    y_n において「曲線の向きの先にトークンベクトルの点が見えなくなる」のは,y_1, y-2, ‥‥, y_n がもともと決定されているからである。
    x_1, x_2, ‥‥, x_m が与えられてところで,y_1, y-2, ‥‥, y_n は決定している。
    y_1, y-2, ‥‥, y_n の生成は,既に決定しているトークンベクトル列を,頭から1つずつ拾っているだけである。

    そして y_1, y-2, ‥‥, y_n を,人間のトークン列 b_1, b_2, ‥‥, b_n に戻す。
    これがパラグラフの生成である。


    通説は,パラグラフの生成を,つぎのことばで説く:
     「確率 ──トークンAにつながる確率の高いトークン」
     「連想 ──トークンAから連想されるトークン」
    言うまでもなく,この方法からはまっとうなテクストは出て来ない。


    しかし,なんとも不思議な話である。
    つぎの疑問を持つのが,ふつうである:
      「曲線の端に立ってこの先を見ると,
       トークンベクトルが1つ,しかも1つだけ見える」
     って,どういうこと?
      「b_1, b_2, ‥‥, b_n が応答テクストになっている」
     って,どういうこと?」

    この疑問に対する答え方は:
     「 Transformaer 脳は,こうなるように出来上がっている。
    疑問を解きたければ,Transformer を勉強せよ。
    トークンをつなぐその曲線が,記憶の中にある曲線をたどるものであることが,わかるだろう。」


    Transformer の勉強は,Transformer の数学の勉強である。
    この数学を理解すれば,疑問は解消される?
    そうはいかない。
    Transformer は,「大数」の世界なのである。

    「曲線の端に立ってこの先を見ると,トークンベクトルが1つ,しかも1つだけ見える」は,大数の世界の現象である。
    トークンベクトルの数が100万になっても,1万を超える次元の数空間の中に点在すれば,上の景色をつくれるということである。

    人は,大数で起こることがわからない。
    わからないので,「量質転化」とか「創発 emergence」のようなことばでごまかし,それで済ますことになる。
    「大数の世界がわかる」の「わかる」は,<悟り>の趣きになりそうである。