DeepSeek

DeepSeek-R1をローカルで動かすための 3 つのハードウェア構成案:3000 万円から 70 万円の現実的選択肢

はじめに:DeepSeek-R1 はどれだけ「大きい」のか? DeepSeek-R1 は、DeepSeek によって開発されたパラメータ数 671Bの MoE(Mixture-of-Experts)型 LLM で、動的ルーティングによるスパースアクティベーションを採用しており、実際の推論では約37Bパラメー…

国産LLMの未来と蒸留戦略:DeepSeek-R1推論力の融合におけるPLaMo 2の次なる可能性

DeepSeek-R1とPLaMo 2 31Bにおける性能比較と、日本におけるLLM活用戦略の考察 2025年4月現在、国内において大規模言語モデル(LLM)をローカル環境で運用するニーズは高まり続けており、その選択肢として、日本語フルスクラッチで開発されたPreferred Netwo…

推論LLMのDeepSeek-R1のプロンプト設計ガイド:一般的なLLM(CRISPE)との違いと最適な書き方

DeepSeek-R1の公式論文に基づき、その推論LLM(大規模言語モデル)に適したプロンプトの書き方について、以下の点に注意する必要があります。 1. 問題と出力フォーマットを直接記述(ゼロショット設定) 簡潔で明確に: DeepSeek-R1はプロンプトに対して非常…

DeepSeekによる知識蒸留:AIME 2024で証明された軽量モデルの数学推論能力

AIME 2024 評価結果 AIME(AI Mathematics Evaluation)は、人工知能の数学的推論能力を評価するためのテストです。2024 年のテストでは、さまざまなモデルが数学やプログラミングのタスクにおいて次のような結果を示しました。 評価データ モデル名 AIME 20…

汎用大規模モデルと推論モデルの比較

1. すべての計算が推論 LLM に適しているわけではない。 推論 LLM(例: DeepSeek-R1、OpenAI 01)は、複雑なコードタスクを複数のステップに分解し、論理チェーンを形成する。この逐次推論のアプローチは人間のプログラマーの思考プロセスに似ており、コード…

DeepSeek-R1-Zero と DeepSeek-R1 の違いとは?

DeepSeek‑R1‑Zero と DeepSeek‑R1 は、どちらも同じ DeepSeek‑V3‑Base アーキテクチャを基にしていますが、学習手法、出力の質、実用性において顕著な違いがあります。 1. 学習方法の違い DeepSeek‑R1‑Zero は完全に強化学習(RL)のみを使用し、ベースモデ…

DeepSeekのローカルデプロイ環境とGPUのメモリ要件について

DeepSeekのデプロイを議論する際にQwenの蒸留モデルが選ばれる理由 一般的な技術者がDeepSeekのデプロイを議論する際、なぜDeepSeekのオリジナルモデルではなく、Qwenの蒸留モデルのデプロイを検討するのでしょうか? その主な理由は以下の通りです。 1. 計…