Up 出力 [ p_1, ‥‥, p_m ] 作成: 2025-06-21
更新: 2025-06-25


    Transformer は,学習材テクストを記憶するシステムである。

    学習材テクストS の記憶の方法は?
    S のトークン分割
       T = [ t_1, ‥‥, t_m ]
    に対応するトークン点の列
       X = [ x_1, ‥‥, x_m ]
    を,テクストの糸に乗せる,というものである。
    そして,うまく乗ったかどうかを示すのが,出力
       P = [ p_1, ‥‥, p_m ]
    である。

    P はどんなものか?
    p_i ( i = 1, ‥‥, m) は,NT次元の確率分布ベクトルで,
     ・ほぼ one-hot
     ・p_ik ( i < m ) が「ほぼ1」のとき,k = ID_(i+1)
    このように P は,X がテクストの糸に乗っていることを示すものになっている。


    Transformer は,入力の T に対し P を出力するシステムである。,
    Transformer の処理/アルゴリズムのゴールは, P である。

    P は,学習のはじめのうちは,上に述べた形にはならない。
    学習が進むにつれ,だんだんと,所期のものになっていく。
    そしてこれは,「X がテクストの糸に乗るようになっていく」ということである。


    こうして,成長した Transformer のやっていることは:
      「トークン列をテクストの糸に乗せる」
    である。
    このようにして,「話の糸」をせっせと貯め込んでいる。