DeepSeek
はじめに:DeepSeek-R1 はどれだけ「大きい」のか? DeepSeek-R1 は、DeepSeek によって開発されたパラメータ数 671Bの MoE(Mixture-of-Experts)型 LLM で、動的ルーティングによるスパースアクティベーションを採用しており、実際の推論では約37Bパラメー…
DeepSeek-R1とPLaMo 2 31Bにおける性能比較と、日本におけるLLM活用戦略の考察 2025年4月現在、国内において大規模言語モデル(LLM)をローカル環境で運用するニーズは高まり続けており、その選択肢として、日本語フルスクラッチで開発されたPreferred Netwo…
DeepSeek-R1の公式論文に基づき、その推論LLM(大規模言語モデル)に適したプロンプトの書き方について、以下の点に注意する必要があります。 1. 問題と出力フォーマットを直接記述(ゼロショット設定) 簡潔で明確に: DeepSeek-R1はプロンプトに対して非常…
AIME 2024 評価結果 AIME(AI Mathematics Evaluation)は、人工知能の数学的推論能力を評価するためのテストです。2024 年のテストでは、さまざまなモデルが数学やプログラミングのタスクにおいて次のような結果を示しました。 評価データ モデル名 AIME 20…
1. すべての計算が推論 LLM に適しているわけではない。 推論 LLM(例: DeepSeek-R1、OpenAI 01)は、複雑なコードタスクを複数のステップに分解し、論理チェーンを形成する。この逐次推論のアプローチは人間のプログラマーの思考プロセスに似ており、コード…
DeepSeek‑R1‑Zero と DeepSeek‑R1 は、どちらも同じ DeepSeek‑V3‑Base アーキテクチャを基にしていますが、学習手法、出力の質、実用性において顕著な違いがあります。 1. 学習方法の違い DeepSeek‑R1‑Zero は完全に強化学習(RL)のみを使用し、ベースモデ…
DeepSeekのデプロイを議論する際にQwenの蒸留モデルが選ばれる理由 一般的な技術者がDeepSeekのデプロイを議論する際、なぜDeepSeekのオリジナルモデルではなく、Qwenの蒸留モデルのデプロイを検討するのでしょうか? その主な理由は以下の通りです。 1. 計…