DeepSeek-R1-Zero と DeepSeek-R1 の違いとは?

DeepSeek‑R1‑Zero と DeepSeek‑R1 は、どちらも同じ DeepSeek‑V3‑Base アーキテクチャを基にしていますが、学習手法、出力の質、実用性において顕著な違いがあります。

1. 学習方法の違い

  • DeepSeek‑R1‑Zero は完全に強化学習(RL)のみを使用し、ベースモデルに直接 GRPO アルゴリズムを適用しています。モデルの学習は、正確性報酬やフォーマット報酬などのルールベースの報酬を利用して自己学習を促進する形で行われます。このアプローチにより、モデルは一部の推論タスクで驚異的なパフォーマンスを発揮しますが、初期の教師あり信号がないため、出力の質に課題があります。
  • DeepSeek‑R1 は、R1‑Zero を基盤としつつ、以下のような多段階トレーニングを採用しています:
    • まず、少量の高品質な「コールドスタート」データを使用した教師あり微調整(SFT)を行い、出力フォーマットや言語スタイルを整える。
    • その後、強化学習を適用し、言語の一貫性を向上させる報酬や、他のモデルからのフィードバック(非推論タスク向けの報酬など)を組み合わせ、拒絶サンプリング技術を活用して誤った回答を排除することで、全体的な性能と汎用性を向上させる。

2. 出力の質と可読性

  • R1‑Zero は、純粋な強化学習によって高度な推論能力を獲得する一方で、教師ありデータを使用していないため、出力フォーマットが不規則になったり、可読性が低下したり、時には中国語と英語が混在することがある。
  • R1 は「コールドスタート」SFT とその後の強化学習を組み合わせることで、フォーマットの乱れや言語の不一致を解消し、思考プロセス(Chain-of-Thought)がより明確で論理的に一貫したものとなり、実用的な用途に適した出力を生成できるようになっている。

3. 実用性と安定性

  • R1‑Zero は、あくまで実験的なモデルであり、純粋な強化学習のみで高度な推論能力を自己学習できる可能性を示したものの、出力の質や言語の一貫性に課題があるため、商用利用や大規模な導入には向いていない。
  • R1 は、強力な推論能力を維持しつつ、多段階トレーニングによって出力の質を最適化し、人間の好みにより適合するよう調整されている。そのため、APIの利用、製品への統合、ユーザーエクスペリエンスの面で、より成熟し安定したモデルとなっている。

総じて、DeepSeek‑R1‑Zero は純粋な強化学習がモデルに高度な推論能力を自己学習させる可能性を示したものであり、DeepSeek‑R1 はその基盤の上に教師ありデータと多段階のトレーニングを加えることで、出力のフォーマットを整え、実用性を高めたモデルと言える。