GRPO 讀後心得

Posted by clsung is reading on Monday, February 3, 2025

GRPO
GRPO

強化學習新突破!GRPO如何讓AI變聰明?

🚀 這篇是讀 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 的心得感想,有些地方就把論文裡引用的也放上去。

AI怎麼變得更會解數學題?

你有沒有想過,為什麼我們的 AI 可以在下圍棋、寫文章、甚至解數學題上越來越強?這背後的關鍵之一,就是 強化學習 (Reinforcement Learning, RL)

不過,傳統的 RL 方法常常有一個問題——它需要大量的計算資源,特別是 PPO (Proximal Policy Optimization)【Schulman et al., 2017】這種常見的演算法,會用一個叫做「評論者 (Critic Model)」的模型來幫助 AI 評估它的決策好不好。這樣的方法雖然有效,但對於像數學推論這麼複雜的問題,計算成本太高了。

這時候,新的強化學習方法 GRPO (Group Relative Policy Optimization) 就登場了!


核心概念:GRPO 是什麼?

GRPO 是一種新型強化學習演算法,由 DeepSeek-AI 團隊 提出【Shao et al., 2024】。它的最大特點是:

  1. 不用評論者 (Critic Model) ❌👨‍🏫

    • PPO 需要一個評論者來計算 AI 的表現,但 GRPO 直接用「一組回答」來互相比較,這樣就可以省下計算資源。
  2. 讓 AI 自己學會比較答案的好壞 🤔💡

    • 傳統方法是 AI 產生一個答案後,讓評論者幫忙評分。
    • GRPO 則是讓 AI 產生多個答案,然後自己學會比較哪些答案比較好。
    • 這樣做可以大幅提升訓練效率,而且 AI 更容易理解「為什麼某些答案比較好」。
  3. 讓 AI 更會解數學題! 🔢✅

    • 在數學推論的基準測試 (MATH【Hendrycks et al., 2021】和 GSM8K【Cobbe et al., 2021】) 上,GRPO 讓 AI 解題準確率提升 5% 以上
    • 這是目前開源 AI 模型 (例如 DeepSeekMath) 中最接近 GPT-4 表現的結果!【Shao et al., 2024】

真實應用:GRPO 讓 AI 更厲害

你可以想像 AI 是一個考試準備的學生:

  • PPO 學習方法: 老師告訴學生這題有幾分,但學生自己不知道怎麼改進。
  • GRPO 學習方法: 學生自己寫出好幾個答案,然後比較哪個答案最好,這樣他就能自我改進!💡

這樣的學習方式讓 AI 不用依賴額外的評論者,也讓它更擅長數學推論。這對於 未來的 AI 科學計算、機器人、自動駕駛 都有很大的幫助!


GRPO 的潛在問題與挑戰

1️⃣ 依賴相對比較,可能導致局部最佳解

GRPO 的核心概念是「群組相對比較」,即 AI 透過產生多個解答並比較它們來學習較好的答案。然而,這樣的學習方式可能會讓 AI 只關注當前生成的答案,而忽略更優秀但未曾產生的解法:

  • 這可能會讓 AI 陷入局部最佳解 (locally optimal),難以發現更有效的數學解題策略。
  • 在數學領域中,有時最佳解法需要長期策略,例如 背包問題 (Knapsack Problem) 可能需要嘗試完全不同的解法才能找到最佳答案。

2️⃣ 缺乏評論者 (Critic Model) 可能影響穩定性

GRPO 省略了 PPO 中的評論者,這雖然減少了計算資源,但也帶來了風險:

  • 沒有穩定的基準 (Baseline) 來評估表現
    • PPO 透過評論者提供一個穩定的評分標準,確保 AI 不會因為一次意外的高分而過度學習錯誤策略。
    • GRPO 只能依賴「群組內的比較」,這可能會讓 AI 在缺乏絕對評價的情況下變得不穩定。

3️⃣ 訓練過程中的數據分布偏差

由於 GRPO 是基於「相對比較」的方式來學習,它的效果很大程度上取決於模型所生成的樣本:

  • 如果模型生成的答案本來就不好,GRPO 也只能在壞答案中挑選稍微好一點的,這可能會影響模型的進步速度。
  • 如果初期訓練數據不足或過於偏向某種類型的數學問題,GRPO 可能會難以泛化到更廣泛的數學領域。
  • AI 仍然可能因為數據偏差而學到錯誤的比較方式,所以還需要更好的數據選擇策略。【Wei et al., 2022】

4️⃣ 在其他 AI 領域的適應性不明確

GRPO 目前主要用於數學推論,但在其他領域 (例如自然語言理解或機器翻譯) 的效果還未經過廣泛驗證:

  • 對話系統或寫作任務中,評估一組答案的「相對好壞」可能比數學題更困難,因為語言表達的標準比較主觀。
  • 在決策型 AI (如自動駕駛) 中,相對比較可能不足以確保 AI 選擇安全性最高的行動。

5️⃣ 仍然無法完全取代大型閉源模型

儘管 GRPO 讓 DeepSeekMath 在開源數學模型中達到了頂尖水準,但它仍然未能超越 GPT-4 或 Gemini-Ultra

  • 這意味著即使 GRPO 能夠提升數學推論能力,但在更高層次的邏輯推理與跨領域應用方面,可能仍然需要其他技術來輔助。
  • 目前 GPT-4 和 Gemini-Ultra 還是更強,但 GRPO 讓開源模型有了追趕的可能!

結論:GRPO 創新,但也有改進空間

GRPO 是一種讓 AI 更有效率地學習數學推論的方法,能夠用比較自己產生的答案來提升表現,並且比傳統的 PPO 省計算資源。它已經讓 AI 在數學競賽等級的問題上逼近 GPT-4,未來可能應用到更多領域。不過另一方面,雖然 GRPO 透過「相對比較」來優化 AI 的數學推論能力,減少了傳統 PPO 的計算資源需求。然而,它仍然面臨 局部最佳解、缺乏穩定基準、數據分布偏差 以及 跨領域適應性不足 等挑戰。

🎯討論:AI 真的能自己學會比較答案嗎?

如果 AI 不再需要「評論者」,只靠「比較自己寫的答案」,它會不會變得更客觀?還是可能陷入「自己騙自己」的陷阱?這種方法能不能應用到語言理解、科學研究,甚至是醫療診斷?🧐


參考資料

  1. GRPO 提出與應用:Shao et al., 2024. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300
  2. PPO 強化學習:Schulman et al., 2017. Proximal Policy Optimization Algorithms. arXiv:1707.06347
  3. MATH 數學基準測試:Hendrycks et al., 2021. Measuring Mathematical Problem Solving with the MATH Dataset. arXiv:2103.03874
  4. GSM8K 基準測試:Cobbe et al., 2021. Training Verifiers to Solve Math Word Problems. arXiv:2110.14168
  5. 強化學習對 AI 推論的影響:Wei et al., 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS