Up | Multi-Head Attention | 作成: 2025-05-17 更新: 2025-05-17 |
(W_Q)_1, ‥‥, W_Q)_H ( ← W_Q ) (W_K)_1, ‥‥, W_K)_H ( ← W_K ) (W_V)_1, ‥‥, W_V)_H ( ← W_V ) 即ち,重み付け計算は,つぎのようになる:
(Q)_k = X(S) (W_Q)_k (K)_k = X(S) (W_K)_k (V)_k = X(S) (W_V)_k k = 1, ‥‥, H
K = X(S) W_K) V = X(S) W_V この方法を,「Multi-Head Attention」と謂う。 しかし「最後は同じ」ということで,ここでは「Single-Head」で論を進める。 |