DeepSeek-R1をローカルで動かすための 3 つのハードウェア構成案：3000 万円から 70 万円の現実的選択肢

DeepSeek 生成AI 構成管理

はじめに：DeepSeek-R1 はどれだけ「大きい」のか？ DeepSeek-R1 は、DeepSeek によって開発されたパラメータ数 671Bの MoE（Mixture-of-Experts）型 LLM で、動的ルーティングによるスパースアクティベーションを採用しており、実際の推論では約37Bパラメー…

2025-04-18

国産LLMの未来と蒸留戦略：DeepSeek-R1推論力の融合におけるPLaMo 2の次なる可能性

DeepSeek 生成AI

DeepSeek-R1とPLaMo 2 31Bにおける性能比較と、日本におけるLLM活用戦略の考察 2025年4月現在、国内において大規模言語モデル（LLM）をローカル環境で運用するニーズは高まり続けており、その選択肢として、日本語フルスクラッチで開発されたPreferred Netwo…

2025-03-25

推論LLMのDeepSeek-R1のプロンプト設計ガイド：一般的なLLM（CRISPE）との違いと最適な書き方

生成AI DeepSeek

DeepSeek-R1の公式論文に基づき、その推論LLM（大規模言語モデル）に適したプロンプトの書き方について、以下の点に注意する必要があります。 1. 問題と出力フォーマットを直接記述（ゼロショット設定）簡潔で明確に: DeepSeek-R1はプロンプトに対して非常…

2025-03-17

DeepSeekによる知識蒸留：AIME 2024で証明された軽量モデルの数学推論能力

生成AI DeepSeek

AIME 2024 評価結果 AIME（AI Mathematics Evaluation）は、人工知能の数学的推論能力を評価するためのテストです。2024 年のテストでは、さまざまなモデルが数学やプログラミングのタスクにおいて次のような結果を示しました。評価データモデル名 AIME 20…

2025-03-13

汎用大規模モデルと推論モデルの比較

DeepSeek 生成AI

1. すべての計算が推論 LLM に適しているわけではない。推論 LLM（例: DeepSeek-R1、OpenAI 01）は、複雑なコードタスクを複数のステップに分解し、論理チェーンを形成する。この逐次推論のアプローチは人間のプログラマーの思考プロセスに似ており、コード…

2025-03-13

DeepSeek-R1-Zero と DeepSeek-R1 の違いとは?

DeepSeek 生成AI

DeepSeek‑R1‑Zero と DeepSeek‑R1 は、どちらも同じ DeepSeek‑V3‑Base アーキテクチャを基にしていますが、学習手法、出力の質、実用性において顕著な違いがあります。 1. 学習方法の違い DeepSeek‑R1‑Zero は完全に強化学習（RL）のみを使用し、ベースモデ…

2025-02-21

DeepSeekのローカルデプロイ環境とGPUのメモリ要件について

DeepSeek 生成AI

DeepSeekのデプロイを議論する際にQwenの蒸留モデルが選ばれる理由一般的な技術者がDeepSeekのデプロイを議論する際、なぜDeepSeekのオリジナルモデルではなく、Qwenの蒸留モデルのデプロイを検討するのでしょうか？その主な理由は以下の通りです。 1. 計…