AIME 2024 評価結果
AIME(AI Mathematics Evaluation)は、人工知能の数学的推論能力を評価するためのテストです。2024 年のテストでは、さまざまなモデルが数学やプログラミングのタスクにおいて次のような結果を示しました。
評価データ
| モデル名 | AIME 2024 pass@1 | 500 MATH-pass@1 | AIME 2024 cons@64 | GPOA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating |
|---|---|---|---|---|---|---|
| GPT-40-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759.0 |
| Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717.0 |
| 01-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820.0 |
| QwQ-328 | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316.0 |
| DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954.0 |
| DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189.0 |
| DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481.0 |
| DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691.0 |
| DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205.0 |
| DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 57.5 | 1633.0 |
評価結果を見ると、DeepSeek-R1-Distill-Qwen-32B と DeepSeek-R1-Distill-Llama-70B は複数の数学タスクで優れた成績を示し、特に AIME 2024 pass@1 および GPOA Diamond pass@1 のスコアが高いことがわかります。
大規模モデルの知識蒸留技術の解析
知識蒸留とは?
知識蒸留(Knowledge Distillation) は、大型で複雑なモデル(教師モデル)の「知識」を、小型で軽量なモデル(学生モデル)に移行する技術です。その主な目的は、高い性能を維持しつつ、計算コストやストレージの負担を大幅に削減することです。
知識蒸留のたとえ
知識蒸留のプロセスは、料理の熟練したシェフが弟子に技術を伝授することに例えられます。
- 経験豊富なシェフ(教師モデル)は、火加減の調整や味付けの技術など、明文化しにくい知識を教えます。
- 弟子(学生モデル)は、シェフの手順を完全にコピーすることなく、同等の料理を作れるようになります。
知識蒸留のプロセス
- 教師モデルの訓練:まず、高性能な大規模モデル(例:DeepSeek-R1)を訓練します。
- 知識の伝達:教師モデルは入力データに対して「ソフトラベル(確率分布)」を生成し、単なる「ハードラベル(正解のみ)」ではなく、より豊かな決定プロセスを学生モデルに学習させます。
- 学生モデルの最適化:学生モデル(例:Qwen)は、教師モデルの出力や中間的な特徴を模倣し、パラメータを調整することで、最終的に軽量化された形で展開されます。
重要なポイント
- 蒸留後のモデルは依然として Qwen のアーキテクチャ(ネットワーク構造やパラメータの規模)を持ちますが、DeepSeek の知識を統合しています。
- DeepSeek-R1 の数学的推論能力は、ソフトラベルや特徴の整合性を通じて Qwen に継承され、同じアーキテクチャのままより優れた性能を発揮できるようになっています。
- 知識蒸留の本質は 「知識の移行」 であり、「アーキテクチャの置き換え」 ではありません。これは、「生徒が先生の解法の考え方を受け継ぐが、脳の構造自体は変わらない」のと同じです。
結論
AIME 2024 の評価結果は、知識蒸留技術が軽量モデルの数学的推論能力を大幅に向上させ、計算効率を維持するのに有効であることを示しています。DeepSeek-R1-Distill-Qwen-32B や DeepSeek-R1-Distill-Llama-70B は、多くのタスクで優れたパフォーマンスを発揮し、知識蒸留技術の可能性を示しています。今後、蒸留プロセスをさらに最適化し、学生モデルの汎化能力を向上させることが、AI 研究の重要な課題となるでしょう。