主要な知見
  • RLHF[1]はChatGPTを単に「会話ができる」から「上手に会話できる」に変えた重要技術であり、InstructGPTの中核方法論――人間のフィードバックから報酬モデルを学習し、PPO[4]で言語モデルの方策を最適化する
  • DPO[3]は報酬モデルの学習を完全にスキップし、選好データから直接方策を最適化することでアライメントコストを劇的に削減――DPOで学習した7BモデルZephyr[9]が70BのRLHFモデルを上回った
  • DeepSeek-R1[7]のGRPO[11]手法は、人間のアノテーションなしの純粋なRLで推論能力を引き出せることを実証し、モデルが自発的に省察と検証を学ぶ「アハ体験(aha moment)」を生み出した
  • アライメント技術は「人間のアノテーション駆動」パラダイムから「自己報酬型」[12]および「グループ強化学習」へとシフト中――本記事にはDPO微調整と報酬モデル学習の2つのGoogle Colabハンズオンラボを収録

1. なぜLLMにはアライメントが必要か? GPT-3からChatGPTへの決定的転換点

1,750億パラメータを持つGPT-3は流暢なテキストを生成できましたが、頻繁に「非協力的」でした。単純な質問をしてもWikipedia風の百科事典的記述を延々と生成したり、コードを書かせると正しく見えるが論理的エラーを含む出力をしたり、さらに悪いことに有害またはバイアスのあるコンテンツをためらいなく生成したりしました。

根本原因は基本的なギャップにあります:事前学習はモデルに「次のトークンを予測する」ことだけを教え、何が「良い回答」であるかは一切教えない。

事前学習の目的関数: max Σ log P(x_t | x_1, ..., x_{t-1})
                     → 言語の統計パターンを学習するが、「有用な回答とは何か」は学ばない

アライメントの目的関数: max E_{x~prompt}[R(x, y)] - β·KL[π_θ(y|x) || π_ref(y|x)]
                       → 言語能力を保持しながら人間の選好を最大化する

事前学習 ≠ 有用:
  ユーザー: 「フランスの首都は?」
  未アライメント: 「フランスの首都は? これは地理の問題です。フランスは西ヨーロッパに位置し...」(文章の続き)
  アライメント済: 「フランスの首都はパリです。」(質問に回答)

2022年にOpenAIはInstructGPT[1]を発表し、驚くべき結果を実証しました:RLHFで学習した1.3Bモデルが、未アライメントの175B GPT-3を人間の評価で上回ったのです。これはアライメントがモデル能力を損なうのではなく、事前学習中にすでに学習された知識を実際に解放することを意味します。いわゆるアライメントボーナスです。

InstructGPTの成功はChatGPTに直接つながり、RLHFは大規模言語モデルの標準的な学習パイプラインとなりました。しかし、RLHFの複雑さとコストはより簡潔な手法の探索も促しました。DPOからGRPOまで、アライメント技術は急速なイノベーションの時代に突入しました。

2. RLHFの完全パイプライン:SFT → 報酬モデル → PPO

RLHF(Reinforcement Learning from Human Feedback)の中核的アイデアは、Christianoら[2]のロボット制御における先駆的研究に由来します。人間は精密な報酬関数を書くことはできませんが、2つの結果の品質を比較することは容易にできます。InstructGPT[1]はこのアイデアを言語モデルに体系的に適用し、3段階の学習パイプラインを確立しました。

ステージ1:教師あり微調整(SFT)

事前学習済みモデルから開始し、人間アノテーターが作成した高品質な指示-応答ペアを使用して教師あり微調整を行います。InstructGPTは約13,000の人間が作成したデモンストレーション例を使用しました。

SFT損失関数:
  L_SFT = -Σ log P_θ(y_t | x, y_1, ..., y_{t-1})

  x: 指示(プロンプト)
  y: 人間がアノテーションした理想的な応答
  θ: モデルパラメータ

SFTの役割:
  事前学習モデル → 「会話フォーマット」と「指示への従い方」を学習
  しかしSFTデータは限られるため、モデルはまだ不適切な応答を生成する可能性がある
  → RLによるさらなる最適化が必要

ステージ2:報酬モデルの学習

報酬モデルはRLHFの中核コンポーネントです。報酬モデルは人間の選好判断を学習します。同じプロンプトに対して、人間アノテーターが複数の応答を品質順にランク付けし、報酬モデルはこのランキングを予測するよう学習します[5]

Bradley-Terry選好モデル:
  P(y_w ≻ y_l | x) = σ(r_φ(x, y_w) - r_φ(x, y_l))

  y_w: 人間が好む応答(winner)
  y_l: 人間が好まない応答(loser)
  r_φ: 報酬モデル、スカラースコアを出力
  σ: シグモイド関数

RM学習損失:
  L_RM = -E_{(x, y_w, y_l) ~ D}[log σ(r_φ(x, y_w) - r_φ(x, y_l))]

  → 好まれる応答と好まれない応答の報酬ギャップを最大化

InstructGPT RM学習:
  - 33,000プロンプト、各4-9応答
  - アノテーターは完全なランキングを提供(ペアワイズ比較だけでなく)
  - 各ランキングからC(K,2)個の選好ペアが生成され、データ効率を大幅に向上

報酬モデルの品質がRLHFの上限を直接決定します。報酬モデルが誤った選好を学習した場合(例:冗長な応答を好む)、RLHF学習全体が誤った方向に最適化されます。これがReward Hackingと呼ばれる現象です。RewardBench[13]は報酬モデルを評価するための体系的なベンチマークを提供しています。

ステージ3:PPO強化学習最適化

報酬モデルが手に入れば、強化学習を使って言語モデルを最適化できます。PPO(Proximal Policy Optimization)[4]は現在最も広く使用されているアルゴリズムであり、安定性と効率のバランスが取れています。

RLHF RL目的関数:
  max_{π_θ} E_{x~D, y~π_θ(·|x)}[r_φ(x, y)] - β·KL[π_θ(y|x) || π_ref(y|x)]

  π_θ:   現在の方策(学習中の言語モデル)
  π_ref:  参照方策(SFT後の凍結モデル)
  r_φ:   報酬モデルのスコア
  β:     KLペナルティ係数(SFTモデルからの逸脱を制御)

KLダイバージェンス制約の役割:
  - モデルが高報酬を追うために不自然なテキストを生成するのを防止
  - 言語の流暢さと多様性を維持
  - Reward Hacking(報酬モデルの脆弱性の悪用)を回避

PPOクリップ目的関数:
  L_PPO = E[min(r_t(θ)·A_t, clip(r_t(θ), 1-ε, 1+ε)·A_t)]

  r_t(θ) = π_θ(a_t|s_t) / π_old(a_t|s_t)  (方策比率)
  A_t: アドバンテージ関数
  ε: クリッピング範囲(通常0.1-0.2)

PPOによるRLHFは4つのモデルを同時に動かす必要がある:
  1. Actor(方策モデル):応答を生成
  2. Critic(価値モデル):状態価値を推定
  3. 報酬モデル:応答をスコアリング
  4. 参照モデル:KLペナルティを計算
  → 膨大なメモリオーバーヘッド——RLHFの主要なエンジニアリング課題

Anthropicの研究[6]はRLHFの重要な性質をさらに明らかにしました。RLHFは「有用性」と「無害性」を同時に最適化できますが、両者の間には緊張関係が存在します。無害性を過度に最適化するとモデルは保守的になり有用でなくなり、有用性を過度に最適化すると有害なコンテンツを生成する可能性があります。Llama 2[8]の学習時、Metaは2つの独立した報酬モデルを使用してこれら2つの次元を個別に最適化しました。

3. DPO:報酬モデルをスキップする優雅な簡素化

RLHFは効果的ですが、そのエンジニアリング上の複雑さは極めて高いものです。別途報酬モデルを学習し、4つのモデルを同時にロードし、PPOのハイパーパラメータを調整する必要があります。2023年にRafailovら[3]がDPO(Direct Preference Optimization)を提案し、数学的に衝撃的な結論を証明しました――あなたの言語モデル自体が暗黙の報酬モデルである

RLHFからDPOへの数学的導出

DPOの導出はRLHFの最適解から始まります。KL制約付きRLの目的関数には閉形式の最適方策が存在します:

RLHF KL制約付きRL問題:
  max_{π} E[r(x,y)] - β·KL[π(y|x) || π_ref(y|x)]

閉形式最適方策:
  π*(y|x) = (1/Z(x)) · π_ref(y|x) · exp(r(x,y)/β)

  Z(x) = Σ_y π_ref(y|x) · exp(r(x,y)/β)  (分配関数)

報酬関数について解く:
  r(x,y) = β · log[π*(y|x) / π_ref(y|x)] + β · log Z(x)

Bradley-Terryモデルに代入:
  P(y_w ≻ y_l) = σ(r(x,y_w) - r(x,y_l))

2つの報酬を減算すると分配関数Z(x)がキャンセルされる:
  r(x,y_w) - r(x,y_l) = β · log[π_θ(y_w|x)/π_ref(y_w|x)]
                        - β · log[π_θ(y_l|x)/π_ref(y_l|x)]

DPO損失関数:
  L_DPO = -E_{(x,y_w,y_l)~D}[log σ(β · (log π_θ(y_w|x)/π_ref(y_w|x)
                                        - log π_θ(y_l|x)/π_ref(y_l|x)))]

直感的な解釈:
  - π_θ(y_w|x)を増加:モデルが好まれる応答を生成しやすくする
  - π_θ(y_l|x)を減少:モデルが好まれない応答を生成しにくくする
  - π_refとの比率:過度な逸脱を防ぐ

DPO vs RLHF:体系的比較

次元RLHF(PPO)DPO
学習段階SFT → RM → PPO(3段階)SFT → DPO(2段階)
報酬モデル別途学習が必要不要(暗黙的)
メモリ要件4モデルを同時ロード2モデル(π_θ + π_ref)
ハイパーパラメータPPOには多数のハイパーパラメータ主にβのみ
学習の安定性PPOの学習は不安定で崩壊しやすい安定、教師あり学習に類似
データ要件オンライン生成+オフライン選好オフライン選好データのみ
スケーラビリティ高いエンジニアリング複雑性シンプル、実装が容易
理論的保証理想的条件下で最適数学的に同等(同じ仮定の下)
実践的性能大規模では通常優位小規模で優れたコスト効率
代表的事例InstructGPT、ChatGPT、Llama 2Zephyr、Mixtral-Instruct

Zephyr[9]はDPOの最も印象的な成功事例です。HuggingFaceチームはDPOを使用して7Bパラメータのモデルを学習し、Llama 2-Chat 70B(フルRLHFで学習したモデル)をMT-Benchで上回りました。これはDPOの小中規模シナリオにおける優れたコスト効率を実証しました。

IPO[15](Identity Preference Optimization)はDPOの理論的基盤をさらに分析し、DPOがBradley-Terryモデルの正確性を暗黙的に仮定していることを指摘しました。選好データがこの仮定に従わない場合、IPOはより堅牢な代替手段を提供します。

4. GRPOとDeepSeek-R1:純粋なRLによる推論能力の引き出し

2025年初頭、DeepSeek-AIはDeepSeek-R1[7]を公開し、驚くべき発見を明らかにしました:人間がアノテーションしたデータを一切使わず、純粋な強化学習でモデルが自発的に推論能力を発達させることができる。その中核手法がGRPO(Group Relative Policy Optimization)[11]です。

GRPOの中核原理

GRPOは元々DeepSeekMath[11]で提案され、PPOの2つの痛点に対処するよう設計されました:Critic(価値モデル)の学習コストと報酬モデルのバイアスです。

PPOの問題点:
  - 各トークンの価値を推定するCriticモデルが必要 → 追加のメモリと計算
  - 報酬モデルにバイアスがある可能性 → Reward Hacking

GRPOの解決策: Criticをグループ内相対ランキングで置き換え

GRPOアルゴリズム:
  各プロンプトxに対して:
  1. 方策π_θから応答のグループ {y_1, y_2, ..., y_G} をサンプリング
  2. ルールベース報酬(またはRM)で各応答をスコアリング: {r_1, r_2, ..., r_G}
  3. グループ内正規化アドバンテージを計算:
     A_i = (r_i - mean(r_1,...,r_G)) / std(r_1,...,r_G)
  4. 方策を更新:
     L_GRPO = -E[Σ_i min(ρ_i·A_i, clip(ρ_i,1-ε,1+ε)·A_i)]
              - β·KL[π_θ || π_ref]

  ここで ρ_i = π_θ(y_i|x) / π_old(y_i|x)

GRPO vs PPO:
  PPO:  V(s)を推定するCriticが必要 → A(s,a) = R - V(s)
  GRPO: グループ平均でV(s)を置換 → A_i = (r_i - mean) / std
        → Criticモデル不要、約50%のメモリ節約

DeepSeek-R1-Zero:RLの「アハ体験」

DeepSeek-R1-Zeroは最もエキサイティングな実験です。ベースモデルから出発し、SFTをまったく行わず、GRPO+ルールベース報酬で直接学習しました。報酬はわずか2つの単純なルール(正しい応答フォーマットと正しい最終回答)のみで構成されていました。

驚くべきことに、モデルは学習中に複数の推論行動を自発的に発達させました:

これらの行動はいずれも人間が教えたものではなく、正確性を最大化するRLプロセスの中で自然に出現しました。これは深い可能性を示唆しています:推論能力はRL学習の自然な副産物であり、人間のデモンストレーションから学ぶ必要がないかもしれない

GRPO vs PPO vs DPO:三者比較

特性PPO(RLHF)DPOGRPO
学習シグナル報酬モデル選好ペア(オフライン)ルールベース報酬 / RM
Criticが必要はいいいえいいえ(グループ内相対)
RMが必要はいいいえオプション
人間のアノテーション大量適量完全に排除可能
メモリ効率低い(4モデル)高い(2モデル)中程度(2-3モデル)
推論能力の引き出し間接的限定的強力(自発的出現)
適用シナリオ汎用アライメント選好アライメント推論、数学、コーディング
代表的システムChatGPT、Llama 2Zephyr、MixtralDeepSeek-R1

5. アライメント全景:KTOからSelf-Rewardingまで

RLHF、DPO、GRPOの他にも、アライメントのランドスケープは急速に拡大し続けています。以下はいくつかの重要な方向性です。

KTO:プロスペクト理論駆動のアライメント

KTO(Kahneman-Tversky Optimization)[10]のイノベーションは、ペアの選好データを必要としないことです。「この応答は良い」または「この応答は悪い」のバイナリラベルのみが必要です。これにより、データアノテーションの障壁が劇的に下がります。

DPOデータ形式: (prompt, y_w, y_l) ―― 同一プロンプト下でのペア比較が必要
KTOデータ形式: (prompt, y, label) ―― 良い/悪いのバイナリ判断のみ

KTO損失関数:
  L_KTO = E_{y~desirable}[w(y)·(1 - σ(β·r_θ(x,y) - z_ref))]
        + E_{y~undesirable}[w(y)·(1 - σ(z_ref - β·r_θ(x,y)))]

  r_θ(x,y) = log[π_θ(y|x) / π_ref(y|x)]  (暗黙の報酬)
  z_ref: 参照点(KLダイバージェンスの期待値)
  w(y): プロスペクト理論に基づく重み関数

プロスペクト理論の重要な洞察:
  - 損失の痛み > 同等の利得の喜び(損失回避)
  - KTOは自動的に再重み付け:悪い応答により大きなペナルティを適用
  - ペアデータ不要 → プロダクトログからのフィードバック収集に適する

Self-Rewarding Language Models

Self-Rewarding[12]はラディカルなアイデアを提案しています。言語モデル自体を自身の報酬モデルとして機能させるのです。モデルは生成者と審判の両方の役割を同時に果たし、反復的な自己改善を通じてアライメントを達成します。

Constitutional AI(Anthropic)

Anthropicの[6]Constitutional AIは、明示的な原則セット(「憲法」)を使用してAIの行動を導きます。AIはまずこれらの原則を使って自身の応答を自己批判・修正し、次に修正されたデータをRLHFに使用します。これにより、人間アノテーターの主観的判断への依存が軽減されます。

アライメント手法の全景比較

手法データ要件学習の複雑性コアイノベーション
RLHF(PPO)2022選好ペア+SFTデータ非常に高い報酬モデル+PPO最適化
DPO2023選好ペア低い暗黙の報酬、RM不要
IPO2024選好ペア低いBTモデル仮定に依存しない
KTO2024バイナリラベル(ペア不要)低いプロスペクト理論、ペア不要
GRPO2024ルールベース報酬で十分中程度グループ内相対アドバンテージ、Critic不要
Self-Rewarding2024初期シードデータ中程度モデル自己評価と反復改善
Constitutional AI2022原則セット+最小限の人間FB高い原則に基づく自己修正

6. ハンズオンラボ1:TRLによるDPO微調整(Google Colab)

以下の実験ではHuggingFaceのTRLライブラリを使用して、GPT-2 smallにDPO微調整を実装します。この実験はColabの無料GPU(T4)で完全に実行可能であり、アライメント技術の中核原理を実際に体験できます。

# ============================================================
# Lab 1: DPO微調整の実践 ―― TRLでGPT-2をアライメント
# 環境: Google Colab (T4 GPU), 約15-20分
# ============================================================

# --- 1. 必要パッケージのインストール ---
!pip install -q trl>=0.7.0 Transformer Architectures>=4.36.0 datasets peft accelerate bitsandbytes

import torch
import numpy as np
import matplotlib.pyplot as plt
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    TrainingArguments,
)
from trl import DPOConfig, DPOTrainer
from datasets import Dataset
import warnings
warnings.filterwarnings("ignore")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Device: {device}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"Memory: {torch.cuda.get_device_properties(0).total_mem / 1e9:.1f} GB")

# --- 2. 選好データセットの構築 ---
# 実際のシナリオをシミュレーション:同じプロンプトに対して、chosen(良い応答)とrejected(悪い応答)が存在
preference_data = [
    {
        "prompt": "What is machine learning?",
        "chosen": "Machine learning is a branch of artificial intelligence that enables computers to learn patterns from data and make predictions without being explicitly programmed. It uses algorithms to build models from training data.",
        "rejected": "Machine learning is when computers do stuff with data. It's like, you know, AI things. Computers are smart now I guess.",
    },
    # ... (以下同じ学習データ)
]

# データセットを拡張 ―― 言い換えによるデータ量の増加
expanded_data = []
for item in preference_data:
    expanded_data.append(item)
    expanded_data.append({
        "prompt": "Please explain: " + item["prompt"].lower().rstrip("?.") + ".",
        "chosen": item["chosen"],
        "rejected": item["rejected"],
    })

print(f"Total preference pairs: {len(expanded_data)}")

# HuggingFace Datasetに変換
dataset = Dataset.from_list(expanded_data)
dataset = dataset.train_test_split(test_size=0.15, seed=42)

# --- 3. モデルとトークナイザーのロード ---
model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
model = AutoModelForCausalLM.from_pretrained(model_name)
ref_model = AutoModelForCausalLM.from_pretrained(model_name)

# --- 4. DPO学習の設定と実行 ---
dpo_config = DPOConfig(
    output_dir="./dpo_output",
    num_train_epochs=3,
    per_device_train_batch_size=2,
    beta=0.1,  # KLペナルティ係数 ―― DPOで最も重要なハイパーパラメータ
    # ... (詳細な設定)
)

trainer = DPOTrainer(
    model=model, ref_model=ref_model,
    args=dpo_config, train_dataset=dataset["train"],
    processing_class=tokenizer,
)
trainer.train()

# --- 5. 暗黙の報酬分析 ---
# DPOの核心的洞察:方策自体が暗黙の報酬モデル
# r(x,y) = β * log(π_θ(y|x) / π_ref(y|x))
print("Lab 1 Complete!")

7. ハンズオンラボ2:報酬モデルの学習と評価(Google Colab)

以下の実験ではTRLのRewardTrainerを使用して簡単な報酬モデルを学習し、そのランキング精度を評価します。報酬モデルはRLHFの中核コンポーネントであり、人間の主観的な選好を最適化可能なスカラースコアに定量化します。

# ============================================================
# Lab 2: 報酬モデルの学習と評価
# 環境: Google Colab (T4 GPU), 約10-15分
# ============================================================

# --- 1. 必要パッケージのインストール ---
!pip install -q trl>=0.7.0 transformers>=4.36.0 datasets accelerate

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from trl import RewardConfig, RewardTrainer
from datasets import Dataset

# --- 2. 選好データセットの構築 ---
# 各エントリ: (prompt, chosen, rejected)
# chosenはアノテーターが好んだ応答、rejectedは好まれなかった応答

# --- 3. モデルのロードと学習 ---
model = AutoModelForSequenceClassification.from_pretrained(
    "distilbert-base-uncased", num_labels=1  # 報酬モデルは単一のスカラースコアを出力
)

# --- 4. 報酬モデルの評価 ---
# ランキング精度の計算
# Bradley-Terry選好確率の計算

print("Lab 2 Complete!")

8. 意思決定フレームワーク:企業はアライメント戦略をどう選ぶべきか

複数のアライメント技術に直面して、企業はリソース、目標、制約に基づいて実用的な選択を行う必要があります。以下は体系的な意思決定フレームワークです。

意思決定次元1:データの利用可能性

データシナリオ推奨手法根拠
大量のペア選好データ(10K以上のペア)RLHFまたはDPO十分なデータがあれば両者は同様の性能;DPOがより経済的
中程度の選好データ(1K-10Kペア)DPODPOは中程度のデータ量でより安定
バイナリラベルのみ(良い/悪い)KTOペア不要;プロダクトログから収集可能
検証可能な正解があるGRPOルールベース報酬で人間のアノテーションが不要
データがほぼないConstitutional AI / Self-Rewarding原則またはモデルの自己評価で人間のアノテーションを代替

意思決定次元2:予算と技術力

リソースレベル推奨手法概算コスト
高予算チーム(GPUクラスタ+MLエキスパート)RLHF(PPO)高計算+アノテーションコスト
中予算(シングルノードマルチGPU+エンジニア)DPOまたはGRPO中程度の計算、低アノテーションコスト
低予算(シングルGPU+開発者)KTOまたはDPO + LoRA最小限の計算、最小限のアノテーションコスト

意思決定次元3:アプリケーションの目標

目標推奨手法説明
汎用チャットアシスタントRLHFまたはDPO有用性と安全性のバランスが必要
数学/コード推論GRPO正確性がルールベース報酬として機能可能
ドメイン特化型アシスタントDPO+ドメイン選好データコスト効率が高く安定した結果
安全性アライメントConstitutional AI + RLHF原則に基づく+人間の監督
継続的改善Self-Rewarding+反復的DPO自動化された反復最適化

コスト-ベネフィット分析

アライメント手法のROI(概算):

                 初期投資     維持コスト   アライメント品質   適用規模
RLHF (PPO):      $$$$$        $$$         ★★★★★             10B+モデル
DPO:             $$           $           ★★★★              1B-70Bモデル
KTO:             $            $           ★★★               1B-13Bモデル
GRPO:            $$$          $$          ★★★★★             推論タスク
Self-Rewarding:  $$           $           ★★★               研究段階

典型的なROIシナリオ:
  - スタートアップ:DPO + LoRA微調整で7Bモデル → 最高のコスト効率
  - 中規模企業:DPO微調整で13B-70Bモデル → 品質とコストのバランス
  - 大手テック企業:フルRLHFパイプライン → 最高品質
  - 研究チーム:GRPOで推論能力を探索 → フロンティアのブレークスルー

9. 結論と展望

2017年にChristianoら[2]がロボット制御で「人間の選好から学ぶ」ことを提案してから、2022年にInstructGPT[1]がRLHFを言語モデルに体系的に適用し、2025年にDeepSeek-R1[7]が純粋なRLで推論能力を引き出すまで――アライメント技術はわずか数年で革命的な進化を遂げました。

注目に値するいくつかのトレンドがあります:

アライメントは単なる技術的問題ではなく、哲学的問題でもあります。最終的にAIにどのような「人間の価値観」に整合させたいのか? 誰の価値観なのか? 異なる文化やコミュニティ間でどうバランスを取るのか? これらの問いへの答えがAIの将来の軌道を深く形作るでしょう。

実務者への推奨として、本記事はDPOから始めることを勧めます。エンジニアリングの観点から、現在最も簡潔でコスト効率の高いアライメント手法です。モデル規模と品質要件が増大するにつれ、フルRLHFパイプラインの検討や、推論能力引き出しのためのGRPOの探索を考慮してください。アライメント技術の進化が教えてくれるのは、最良の手法はしばしば最もシンプルなものだということです。数学が正しければ。