DeepSeek 的 NSA 與 MLA:人工智慧效能最佳化的雙重策略?

Posted by clsung on Monday, February 24, 2025

NSA & MLA
NSA & MLA

🌟 同出一源的創新技術

DeepSeek 這一年推出了很多技術,最近我在前幾篇文章有提到 NSA 和 MLA ,看得出來 DeepSeek 正在全方位地解決 AI 模型的效能瓶頸,從不同角度提升 AI 的工作效率。而這兩者 Attention 的技術,就像是同一個工程團隊設計了兩種不同的最佳化方案:一種讓汽車更省油(NSA),另一種讓行李箱能裝更多東西(MLA)。

🔑 0. 關鍵要點摘要

  • NSA(Native Sparse Attention, 原生稀疏注意力)是一種透過選擇性處理文本內容來減少計算量,提升 AI 長文本處理效能的方法
  • MLA(Multi-Head Latent Attention, 多頭潛在注意力)透過壓縮 AI 模型運作時需要的暫存資料,降低記憶體使用量
  • NSA 專注於提升處理大量文字時的計算效率,而 MLA 則專注於讓 AI 運作時更節省記憶體

🔍 1. NSA:原生稀疏注意力機制

NSA(Native Sparse Attention)是一種專為提升 AI 模型處理長文本效率而設計的技術。它採用「稀疏」處理方式,這就像是閱讀一本書時只關注重要段落,而不是逐字閱讀每個字。AI 模型使用 NSA 時,會專注於文本中最相關的部分,忽略不太重要的內容,這樣就能節省大量計算資源。想像你在看電影時快轉過一些不太重要的場景,NSA 也是類似的原理,讓 AI 在處理冗長對話或大型文件時能更快速、更有效率。

💾 2. MLA:多頭潛在注意力機制

MLA(Multi-Head Latent Attention)是另一種提升 AI 效能的方法,主要目標是節省記憶體空間。在 AI 生成回應的過程中,模型需要儲存大量暫時性資料(稱為鍵值或 Key-Value 緩存)。這就像是你在解數學題時需要記住的中間步驟。MLA 透過「壓縮」這些資料,就像把一個大文件壓縮成 ZIP 檔一樣,使得模型能在較小的記憶體空間中運作。這特別適合在記憶體有限的設備上運行大型 AI 模型,或在處理特別長的文本時減少記憶體用量。

⚖️ 3. 兩者差異:互補的效能優化策略

NSA 和 MLA 解決了 AI 模型面臨的不同挑戰:

  1. 優化焦點不同:NSA 主要關注「計算效率」—減少需要的計算操作數量,就像省油的汽車引擎。MLA 則專注於「記憶體效率」—減少需要的儲存空間,就像節省硬碟空間的壓縮工具。

  2. 適用場景不同:NSA 在處理超長文本(如整本書或長篇報告)時特別有用,因為它能降低處理這些大量資料的計算成本。MLA 在 AI 需要即時回應且記憶體資源有限的情況下表現出色,例如在手機或低配置伺服器 (例如我租得起的低價 VPS …) 上運行 AI 服務。

  3. 工作原理不同:NSA 使用智慧性動態選擇策略,決定哪些文本部分值得仔細處理,哪些可以略過。MLA 則通過數學壓縮技術,將原本佔用大量空間的資料轉換成更小的表示形式。

想像 NSA 是一位聰明的閱讀天才,知道哪些章節可以跳過;而 MLA 則是一位出色的速記官,能用簡短的筆記記錄大量資訊。

🔬 4. NSA 與 MLA 的差異

📊 比較分析:NSA vs MLA

為了更清晰地理解 NSA 和 MLA 的差異,我們可以從多個角度進行比較:

比較方面 NSA(原生稀疏注意力) MLA(多頭潛在注意力)
解決的主要問題 處理長文本時的計算效率低下 AI 運行時記憶體使用過高
工作方式 選擇性地關注文本中的重要部分,忽略次要部分 壓縮模型需要記住的資訊,減少存儲空間
技術類比 閱讀時只關注重點段落,跳過不太重要的內容 使用縮寫筆記記錄大量資訊
適用場景 處理超長文本(如整本書、長篇報告、長時間對話) 在記憶體有限的設備上運行大型 AI 模型
效能提升 64k 長度文本的處理速度提升 6-9 倍 記憶體使用減少 96%(從 860K 元素減至 35K 元素)
對 AI 能力的影響 保持或略微提升 AI 的理解和生成能力 在某些測試中顯著提升 AI 的表現
技術發布時間 2025 年 2 月 2024 年 5 月

這兩種技術解決了 AI 模型面臨的不同效能挑戰。NSA 就像是讓閱讀更高效的策略,而 MLA 則像是讓筆記更節省空間的方法。它們都不影響 AI 的基本理解能力,反而可能通過更高效的資源利用來提升整體表現。

📈 實驗結果與實際效益

NSA 和 MLA 在實際測試中都展現了顯著的效能提升:

NSA 的實驗結果

  • 在 64,000 字長的文本處理中,前向計算速度提升 9 倍
  • 後向計算(訓練時的梯度更新)速度提升 6 倍
  • 文本生成(解碼)速度提升最高達 11.6 倍
  • 在 MMLU 測試中得分為 0.565(傳統方法為 0.567)
  • 在長文本理解測試 LongBench 中得分 0.469(傳統方法為 0.437)

這些數據表明,NSA 在大幅提高處理速度的同時,保持了 AI 的理解和生成能力,在長文本處理上甚至有所提升。

MLA 的實驗結果

  • 將大型 MoE 模型的 KV 緩存從 860,200 個元素減少到 34,600 個元素(減少 96%)
  • 在 BBH 測試(3-shot)中得分 50.7(傳統 MHA 為 46.6)
  • 在 MMLU 測試(5-shot)中得分 59.0(傳統 MHA 為 57.5)

這表明 MLA 不僅大幅減少了記憶體使用,還通過更有效的資訊處理方式提升了模型的整體表現。

🔮 未來發展與潛在結合

雖然 NSA 和 MLA 目前是作為獨立技術開發的,但它們的互補性質暗示了未來可能的結合方向。由於這兩種技術來自同一家公司,未來可能會看到同時應用兩種技術的 AI 模型:

  • 使用 NSA 提高長文本的計算效率
  • 同時使用 MLA 減少記憶體消耗

這種結合可能會創造出既快速又節省資源的 AI 系統,特別適合在資源有限的環境中處理大量資訊。現有研究(如 “TransMLA: Multi-head Latent Attention Is All You Need”)已經在探索 MLA 與其他注意力機制(如 GQA)的結合,未來可能會有更多關於 NSA 和 MLA 結合的研究。

🏁 5. 結論

NSA 和 MLA 代表了 AI 效能最佳化的兩個不同但互補的方向:NSA 通過選擇性關注提高計算效率,MLA 通過資訊壓縮減少記憶體使用。這兩種技術的開發表明,AI 研究已經進入了一個不僅關注模型能力,也重視資源效率的新階段。

NSA 和 MLA 的成功也說明,有時候 AI 模型並不需要「看到所有內容」或「記住所有細節」就能有效工作,類似於人類閱讀時的選擇性注意和記憶的壓縮機制。這種從人類認知中獲取靈感的方法,可能會繼續指導未來 AI 技術的發展。

對於非專業人士來說,NSA 和 MLA 的發展意味著未來的 AI 系統可能會更節能、更快速,能夠在更多設備上運行,處理更長的文本,這將進一步擴展 AI 的應用範圍和可及性。

主要參考文獻