DeepSeek 新論文：NSA |

什麼是 DeepSeek NSA？

🔮 想像你正在閱讀一本很厚的書。一般人可能會從頭到尾慢慢讀，但聰明的讀者會先看目錄、章節摘要，再決定重點閱讀哪些部分。DeepSeek NSA（Native Sparse Attention, 原生稀疏注意力）就是教 AI 用這種聰明的方式來閱讀長文章！

🌟 1. 介紹

你是否曾經想過，當你在手機或電腦上與智慧聊天機器人互動時，背後的運算究竟如何在極短時間內完成？尤其當這些模型需要處理上萬字甚至更多的長篇文章時，如何既能快速又準確地捕捉文本中的關鍵訊息呢？這就牽涉到「注意力機制（Attention Mechanism）」的運作，傳統的全注意力（Full Attention）機制雖然能夠捕捉整體關係，但其龐大的計算量與記憶體需求常常成為效率瓶頸。而 NSA（Native Sparse Attention）正是一種新型的注意力架構，專門用來解決長文本處理中的計算瓶頸問題。今天我們來研究一下 NSA 的原理，看看其如何在保留模型表現的同時大幅降低計算負擔。

🧠 2. 核心概念

💡 a. 注意力機制與稀疏注意力

在深度學習中，「注意力機制（Attention Mechanism）」可以讓模型在處理資料時，聚焦於最相關的部分。傳統的全注意力（Full Attention）需要計算每個詞與其他所有詞之間的關聯，這在處理長序列時會消耗大量運算資源和記憶體。想像一下，小考只要準備上次考試到現在的範圍，但是期中考、期末考甚至是會考，要準備的範圍多了，花費的精力就更多了。

為了減少這種計算負擔，研究人員提出了「稀疏注意力（Sparse Attention）」。稀疏注意力僅計算序列中部分重要位置的關聯，而忽略不那麼關鍵的部分，從而大幅度降低運算複雜度。但是缺點在於，有些方法在預處理重要位置時，會更花時間；而有些作法和新型的「快速摘整技巧」(像是 Multiple-Query Attention、Grouped-Query Attention) 不相容，反而讓模型讀取記憶體的效率更慢。還有些情況是受限硬體過去的發展，在現今 GPU 架構愈來愈好的情況，並沒有好好的發揮其效能。而 DeepSeek 新提出的 NSA 就是為了解決上面提到的問題。

🎯 b. Native Sparse Attention（NSA）的概念

NSA 是一種「原生可訓練的稀疏注意力」架構，它不僅在推論（inference）階段展現出優異的效能，還能夠在訓練過程中直接採用稀疏運算。其設計同時融合了多項策略，實現了全局訊息與局部精準度之間的動態平衡。以下便是 NSA 如何平衡運算與模型能力的主要元素：

階層式稀疏注意力（Hierarchical Sparse Attention）： NSA 採用動態階層式稀疏策略 (dynamic hierachical sparse strategy)，結合粗粒度的 token 壓縮與細粒度的 token 選擇。粗粒度壓縮能夠快速掃描整體上下文，捕捉全局資訊；而細粒度選擇則確保了對局部關鍵訊息的精細捕捉，兩者相輔相成。
三條注意力路徑（Three Attention Paths）： 為了兼顧全局與局部信息，NSA 將輸入序列同時透過三個並行的注意力分支處理：
1. 粗粒度的 Token 壓縮（Coarse-grained Token Compression）： 將相鄰的一組詞元（token）透過一個可學習的壓縮函數（例如多層感知機，MLP）壓縮成一個代表性較強的「壓縮 token」，這樣可以捕捉文本中較大範圍的全局資訊。
2. 細粒度的 Token 選擇（Fine-grained Token Selection）： 針對某些特別重要的詞元，NSA 採用精細的選擇策略，只保留對模型輸出影響最大的部分。這樣一來，模型就不必對所有詞元進行運算，而只針對那些「關鍵」部分進行高精度計算。
3. 滑動視窗（Sliding Window）： 為了確保本地細節資訊不被忽略，NSA 還引入了滑動視窗策略，讓模型能夠在局部區域內進行完整的注意力運算。這不僅補充了壓縮與選擇所可能遺漏的局部資訊，還能提高對近鄰關係的捕捉能力。

⚡ c. 創新：硬體對齊與端到端訓練

除了演算法層面的設計外，NSA 也非常注重硬體的利用效率。現代 GPU 在運算密集度（Arithmetic Intensity）上有一定的限制，若能使運算與記憶體存取達到更好的平衡，就能充分發揮硬體性能，NSA 在這篇論文的創新有二：

硬體對齊（Hardware-aligned）： NSA 在設計上優化了 blockwise 稀疏注意力，針對現代 GPU（例如 Tensor Cores）進行調整，將理論上的運算減少轉化為實際速度提升。
端到端訓練 (End-to-End training-aware)： NSA 能夠進行端到端訓練，這代表 NSA 不僅在推論階段有效，其設計也允許在訓練階段直接利用稀疏運算，讓整個模型在訓練過程中都能學習到最佳的稀疏模式，而不僅僅是在推論時才實現加速。

📊 d. 效果

基準測試類別與性能：

一般基準測試（如MMLU、GSM8K）：
- 在9個指標中的7個優於完全注意力
- DROP提升0.042
- GSM8K提升0.034
長文本評估（LongBench）：
- 平均分數0.469
- 比完全注意力高0.032
- 比Exact-Top高0.046
思維鏈推理（AIME 24）：
- 8k上下文：準確率0.121（比完全注意力高0.075）
- 16k上下文：準確率0.146（高0.054）

效率分析：

前向時間減少：64k 上下文長度時比完全注意力快 9 倍
反向時間減少：64k 上下文長度時快 6 倍
解碼加速：64k 上下文長度時達到 11.6 倍

實驗結果

實驗結果顯示NSA在長文本任務和指令推理方面表現優異，特別是在64k長度序列處理時。與其他稀疏注意力方法（如 HashAttention ）相比，NSA避免了非連續記憶體訪問問題，確保高硬體利用率和訓練效率。

🔧 3. 真實世界應用

📚 a. 長文本理解與生成

現代的語言模型如 GPT 、LLaMA 以及 DeepSeek 系列，都面臨著處理長文本的需求。不論是對長篇小說的摘要、法律文件的審閱，還是技術文件的自動生成，能夠有效降低注意力機制計算量的 NSA 都能使這些應用變得更高效、更省電。

💻 b. 高效能 AI 系統

在實際應用中，許多智慧客服、線上教育平台、甚至是多語言翻譯系統，都依賴於大型語言模型來提供即時回應。NSA 能夠大幅減少模型在處理大量數據時的計算成本，使得這些系統在資源有限的情況下仍能保持快速且準確的回應速度。對於台灣的科技公司與研究機構而言，這代表著可以在降低運算資源消耗的同時，提升模型效能與使用者體驗。

💰 c. 金融應用

NSA 於 2025年2月18日發布，在 AI 和幣圈引起關注，因其提高的處理效率和降低的計算負載，特別適用於交易演算法。其高效處理長文本的能力使其成為下一代 LLMs 的重要突破，解決了可擴展性和性能瓶頸。我自己覺得，不知道能不能用在對過去幾個月內數以百萬計的交易記錄進行即時監控，以便及時發現可疑交易。另一方面，應該也可以用在自動化合約審查，也就是系統能夠在極短時間內掃描長達數萬字的法律文件，找出關鍵條款、潛在漏洞以及與現行法規不符的內容。

🚀 4. 潛力與挑戰

✨ a. 優勢

運算效率提升： NSA 能夠顯著減少全注意力運算中的重複計算，進而降低計算量與記憶體存取需求，這對於處理超長序列特別有效。
硬體資源節省： 通過優化內核設計與硬體對齊，NSA 在推論時可大幅縮短延遲，降低運算能耗，有助於大規模部署應用。
端到端訓練能力： NSA 能夠在訓練過程中自動學習最佳的稀疏模式，這意味著模型不僅在部署時受益，其整個訓練過程也能更高效。

🎲 b. 面臨的挑戰

演算法與硬體： 儘管 NSA 在理論上可以大幅降低運算量，但要將這些優勢在實際硬體上轉化為速度提升，仍需要針對不同硬體平台 (TPU、GPU) 進行專門的內核優化。
稀疏化的影響： 稀疏注意力在降低計算量的同時，可能會因為忽略部分信息而導致模型表現略有下降。因此，如何在保持高效能的同時確保模型準確性，是 NSA 設計中的一大挑戰。
訓練穩定性： 端到端訓練稀疏注意力機制需要解決梯度傳播不連續或不穩定的問題，這在設計上要求更精細的調參數與架構調整。

📝 5. 結論

綜合來看，NSA（Native Sparse Attention）代表了一種融合了演算法創新與硬體優化的注意力機制設計。它不僅能在推論階段大幅降低計算延遲與記憶體需求，還能在端到端訓練中實現高效能。對於需要處理長文本與大規模資料的現代 AI 系統而言，NSA 提供了一條既節省資源又能保持模型精度的新途徑。

這樣的技術進展對於各行各業都有深遠影響——從智慧客服、線上教育、法律文件分析到技術文件生成，都有可能因此而獲得更快速、更高效的解決方案。同時，隨著台灣在半導體與 AI 領域的持續創新，NSA 的硬體對齊設計也為本地產業帶來了更多機會。

那麼，未來還有哪些方法可以進一步提升 AI 模型在處理長序列時的效率呢？是否還有其他創新技術能與 NSA 相輔相成，共同推動人工智慧的發展？接下來幾天 DeepSeek 又有新的技術要發表，我們拭目以待！