DeepSeek：AI 領域的重大突破與開源策略 🚀

摘要

DeepSeek 透過其創新的大型語言模型（LLM）DeepSeek-V3 在 AI 跟國際領域帶來重大突破，特別是在效能與效率方面的卓越表現。本文探討 DeepSeek-V3 的技術架構、創新特點，以及其對 AI 產業的影響。

前言：AI 技術突破的新里程碑

在人工智慧領域快速演進的 2024-2025 年，新興企業不斷挑戰既有典範。作為由量化交易起家的技術團隊，DeepSeek 以其獨特的技術路線，展現了從金融科技到通用 AI 的成功轉型。特別是其旗艦模型 DeepSeek-V3 在運算效能與效率方面的突破，為開源 AI 領域帶來重大影響。

DeepSeek 技術演進

📅 技術里程碑

2024.01 - DeepSeekMoE 發布
- 採用 Fine-Grained Expert Segmentation（細粒度專家分割）
- 採用 Shared Expert Isolation（共享專家隔離）
- 相較於 GShard，DeepSeekMoE 67B 以 28.5% 計算量達成相當性能
2024.05 - DeepSeek-V2 發布
- 236B 參數規模
- MLA 架構首次應用
- 8.1T tokens 訓練規模
2024.12 - DeepSeek-V3 問世
- 671B 參數突破
- 無輔助損失的負載平衡策略
- Multi-Token Prediction 創新
2025.01 - DeepSeek R1 發布
- 開源戰略升級
- 全端開發整合
- 4M tokens 長上下文支援

核心技術創新

基本上我認為有五項創新，可以參考下表：

技術特點	效益
Auxiliary-Loss-Free Load Balancing	在訓練過程中，保持專家之間的負載平衡，避免某些專家過度負載，而其他專家閒置。
Multi-Token Prediction (MTP)	允許模型在單次前向傳播中預測多個詞元，加快推理速度並提高訓練信號密度。
Node-Limited Routing	限制每個詞元最多只能被送到 M 個節點，避免資料來回傳輸造成延遲。減少跨節點溝通成本，提高 MoE 訓練效率。
DualPipe: Optimized Cross-Node Communication	透過雙向運算與通訊重疊，最小化通訊成本，使模型能夠擴展到更大的規模。
FP8 Training	降低精度(8 bit)，減少記憶體使用，加快訓練速度

技術架構演進比較

特性	V2 (2024.05)	V3 (2024.12)	R1 (2025.01)
參數規模	236B	671B	-
實際啟動參數	21B/token	37B/token	-
上下文長度	128K	128K	4M
核心創新	MLA	MLA + MTP	RL 優化
部署需求	-	404GB	7-8B (輕量版)

技術框架與系統架構

開放源碼與 blog

我在查 DeepSeek 的資料時，發現他們的 blog DeepSeek V3 Blog ，在今年 (2025) 1 月發布了多篇文章，探討了 DeepSeek R1 與 OpenAI o1、Claude 3.5 的對戰，強調了 DeepSeek R1 在開源 AI 領域的突破，以及它在全端（Full Stack）開發和長上下文（Long Context）AI 方面的創新（4M Tokens）。甚至還提供了一篇關於 NVIDIA 資深研究經理 Jim Fan 對 DeepSeek R1 的讚賞，以及如何在 Ollama 平台上本地運行 DeepSeek V3，不過 V3 需要的硬體（光模型就 404GB 了）一般人跑可能有問題，有興趣的就用 R1 就好，至少跑個 7b or 8b 的版本是 ok 的。此外， blog 還包含了一份本地部署指南，從基礎到進階，以及 DeepSeek Chat Free 的介紹，讓用戶能夠體驗到先進 AI （但是我連起來覺得很慢 XD）。

組織背景

DeepSeek 由量化交易公司 High-Flyer （幻方量化）營運，展現金融專業與科技創新的策略整合。透過策略性投資於運算基礎建設，特別是採購數千片 NVIDIA 晶片，使公司在人工智慧發展領域佔據領先地位。公司主業是既然是量化交易，原本做 DeepSeek 是當個 side-project 做，看能不能對量化交易有幫助，沒想到一個不小心，超歐趕美殺翻 AI 業界。

DeepSeek-V3 的表現

DeepSeek-V3 是 DeepSeek 的旗艦模型，當然在寫的這篇文章時候已經有了 R1 的版本（R 我覺得是 RL，也就是 Reinforcement learning 的縮寫，配合 R1-Zero ，個人認為這有當年 AlphaGo(-Zero) 的影子）。

🌟 採用混合專家模型 (Mixture of Experts, MoE), DeepSeekMoE
🧠 使用 Multi-head Latent Attention (MLA) 架構，大幅提升運算效率
❔ 有三項創新，請見下文
💡 總參數量達到 6,710 億 (671B)，每個詞元 (token) 實際啟動 (activated) 約 370 億 (37B) 參數
📝 支持 128k tokens 的上下文
🧑‍🔬 MoE 架構讓模型內部有多個「專家」，專注於不同任務
🚀 提升效率與性能，達到開源領域的頂尖水準
🤝 可與部分封閉原始碼模型抗衡

前身：DeepSeek-V2

DeepSeek-V2 作為 V3 的前身，展現了重要的技術突破。值得注意的是，DeepSeek-V2 僅在 2024 年 5 月發布，短短數月內就實現了如此顯著的技術突破，展現了驚人的創新速度：

🏗️ 總參數量達 236B，每個 token 實際啟動 21B 參數
🚀 相比 DeepSeek 67B：
- 節省 42.5% 訓練成本
- 減少 93.3% Key-Value 快取 (cache)
- 最大生成吞吐量 (throughput) 提升 5.76 倍
📚 訓練資料規模達 8.1 兆 (trillion) tokens
🎯 在多項基準測試中展現優異表現：
- MMLU：78.5%
- BBH：78.9%
- C-Eval：81.7%
- CMMLU：84.0%
💡 創新特點：
- Multi-head Latent Attention (MLA) 架構，對關鍵的 Key-Value 對進行有效壓縮，減少記憶體使用量，提高了推理速度，並減少了硬體需求，進一步降低了運行成本。簡單地說，假設你正在考試，你的筆記本上有很多資訊（Key-Value），但你沒辦法帶所有的筆記進考場，因為太多了。傳統的方法（MHA, Multi-head Attention）是把所有的筆記都抄下來並帶進考場，但這樣太占空間了。MLA 的方法是把筆記進行濃縮，只記下最重要的關鍵點，這樣可以大幅節省空間，同時仍然能幫助你解題。之後可以再講講 MLA 的原理（怎麼愈念愈多了…）
- DeepSeekMoE 最佳化 MoE 架構，可以參考上一篇
- 支援 128K tokens 的上下文

V3 相較於 V2 的重大突破

DeepSeek-V3 在 V2 的基礎架構上，我認為引入了三項重要創新：

⚖️ 無輔助損失的負載平衡策略（Auxiliary-Loss-Free Load Balancing）

僅啟動 (activate) 和更新模型中最相關的部分（也就是「專家」）。
突破性地解決了傳統 MoE 模型中負載平衡與性能之間的權衡
最小化因追求負載平衡而導致的性能下降，以前的解法是用一種「懲罰機制」，如果某個專家負擔太重，系統就會降低它的權重，強迫模型平均分配工作。
引入了一個偏項 (bias term)，動態地將任務分配給適當的專家，避免某些專家過勞或發呆，讓專家分配更自然。一句話：以往是「專家 A 太忙，就強迫他少做一點」，現在則是「專家 A 太忙，就給專家 B、C 加分，讓他們更容易被選上」。

🎯 多詞元預測（Multi-Token Prediction, MTP）

最早是 Meta 所提出的，可參考 Better & Faster Large Language Models via Multi-token Prediction 這篇論文，DeepSeek-V3 則是進一步最佳化，將原本 n 個獨立的詞元輸出改為有因果關係的詞元輸出，這也讓模型可以與 MoE 架構結合，適合長文本的推理。
一次預測多個詞元，顯著提升模型性能，模型會在一個步驟內，同時學習「下一個詞」和「下下個詞」的關係。（好像以前在學 NLP 的時候，有學過這個概念）
支援推測性解碼（Speculative Decoding）
大幅加速推理過程一句話：一般 AI 是「寫一個字，看對不對，然後寫下一個字」，DeepSeek-V3 是「一次試著寫三個字，學習速度變快」。

🔄 DualPipe: A innovative pipeline parallelism algorithm

來特別說明一下 DualPipe ，DeepSeek 透過創新的雙向管線設計，實現了計算與通訊的高效重疊。具體而言：

前向計算時同步進行下一步的權重預取
反向傳播時平行處理梯度聚合
動態調整通訊批次大小以最佳化頻寬利用一句話：假設你有 兩條傳送帶，一條 搬書過去（前向運算），另一條 把整理好的書搬回來（反向運算）。當你在 傳送第一批書時，下一批書已經在準備搬運，這樣傳送帶 永遠不會停下來。同時，當書還在搬運途中，後面的同學已經在整理下一批書，搬書和整理是同時進行的，沒有人會因為等待而閒置。

結論：開源 AI 的新典範

技術創新與產業影響

DeepSeek 透過 V2 到 V3，再到 R1 的技術演進，展現了三個關鍵突破：

🔬 架構創新

MLA 架構重新定義了注意力機制的效率標準
無輔助損失負載平衡開創了 MoE 最佳化的新典範
MTP 為大規模語言模型提供更高效的訓練策略

🌐 開源生態

完整的技術文檔與開源程式碼
支援從輕量級到企業級的部署方案
活躍的開發者社群與持續的技術更新

📊 效能突破

在關鍵基準測試中超越多個商業模型
創新的壓縮技術大幅降低運算資源需求
長上下文處理能力的質變式提升

未來展望

隨著 AI 技術的快速發展，DeepSeek 的創新路線為開源 AI 的未來指明了幾個重要方向：

效能與效率的平衡：透過創新架構，在不犧牲模型性能的前提下，實現更高的運算效率。
開源策略的商業價值：展現了如何在開源模式下建構具有商業競爭力的 AI 技術棧。
技術民主化：透過模型壓縮與最佳化，讓更多開發者能夠參與 AI 技術的創新。

在未來的 AI 技術競賽中，DeepSeek 的發展路徑提供了一個值得關注的範例：如何在開源與創新、效能與效率之間取得平衡，推動 AI 技術的健康發展。

心得

也許未來 LLM 技術的發展還可能專注於：

更高效的注意力機制 (Attention Mechanism) 壓縮算法：以量化、剪枝、知識蒸餾等方法讓注意力機制精簡化。如蒸餾出較小型的教師-學生模型，在保留大部分性能的同時大幅降低運算量。
跨模態知識遷移的創新方法：多模態大模型勢必是下一階段重要發展，包括對齊問題與弱監督學習機制，都能讓模型突破單模態侷限。

小心得

愈念愈多，之後有空再來寫 MLA 原理、 DeepSeek R1(-Zero) 的技術架構。換句話說，也要念一下 GRPO (Group Robust Preference Optimization in Reward-free RLHF) 了。

參考資料

📚 核心技術文獻

🔬 相關技術研究

NVIDIA Technical Blog: Applying Mixture of Experts in LLM Architectures
A Survey on Mixture of Experts
Attention Is All You Need - Transformer 架構基礎論文
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity - Google 的 MoE 開創性研究

📊 效能評測與分析

💡 產業觀點