Up | RLHF (Reinforcement Learning from Human Feedback) | 作成: 2025-05-07 更新: 2025-06-08 |
「不適切な発言をしない」(マナー向上)
そのために使われる人間のフィードバックには、以下のような形式があります:
┌──────────────┐ │ 1. 基本モデル(GPT)│ └────┬─────────┘ │ 教師なし学習(大量のテキストで学習) ▼ ┌───────────────────────┐ │ 2. 指示追従訓練(Instruction Tuning) │ │ → 教師あり学習、プロンプトに従う訓練 │ └────┬─────────────────┘ │ ▼ ┌───────────────────────┐ │ 3. 人間フィードバックによる強化学習(RLHF)│ └────┬─────────────────┘ │ ▼ ┌─────────────┐ │● 人間ラベラーが応答を比較評価 │ └────────┬────┘ ▼ ┌───────────────────────┐ │● ランキングデータ → 報酬モデル(RM)訓練 │ └────────┬──────────────┘ ▼ ┌───────────────────────┐ │● PPO(Proximal Policy Optimization) │ │ によりモデルを更新 │ └───────────────────────┘ ↓ ChatGPT(RLHF済みモデル) 【用語と説明】
|