Up 誤差 (得失) 作成: 2025-06-03
更新: 2025-06-20


    [ o_i ] から導いた [ p_i ] は,一般に [ x_i ] の糸になっていない。
    即ち,つぎのようではない:
     ・i < LEN(S) に対し,p_i は ID_(i+1) 番目の値が「ほぼ1」
     ・p_LEN(S) は, <EOS>のトークンID 番目の値が「ほぼ1」

    そこで,これを [ x_i ] の糸にしていく。
    但し, 「TV と W の調整」を方法にして:
       TVとWの調整 → [ o_i ] → [ p_i ] (糸)


    先ず,糸との [ p_i ] の誤差を表現するる。

    糸の定義では, 「ほぼ1」の表現を使った。
    これを「1」にした [ x_i ] の糸を,[ true_i ] とする。

    true_i は「要素が1つだけ1で他は0」であるわけだが,この形の確率分布は「one-hot」と呼ばれる。
    また,p_i に対する true_i の関係を, 「正解ラベル」と呼ぶ。


    正解ラベル true_i に対する p_i の「誤差」は, 「クロスエントロピー損失関数(Cross-Entropy Loss)」を使って,つぎのように定義する:
       loss_i = cross_entropy ( p_i, true_i ) )
         = - log( p_i (true_i)^T )
    (この定義の形は,理論上絶対であるわけではない。)


    コード
      loss_i = CrossEntropy( o_i, true_i )