ChatGPT 推出 o3-mini 推論型模型

Posted by clsung on Saturday, February 1, 2025

cover
ChatGPT o3-mini 上市啦

ChatGPT o3-mini 推論模型解析

📅 2025 年 1 月 31 日發布

市場背景與策略定位

在 OpenAI 的 12 天 Shipmas 活動 結束後,再經歷了一月份 DeepSeek 的 Sputnik moment 事件,Sam Altman 依然如期推出了 o3-mini 推論模型。這款新型模型的發佈背景值得關注:

  • 市場競爭態勢:OpenAI 正面臨與 DeepSeek 等中國公司的智財權爭議,同時需要改善與自家政府的關係
  • 技術創新定位:針對 STEM(科學、技術、工程、數學)領域優化,在維持高性能的同時大幅降低運算成本,類似在做一個「我(OpenAI)還是比較好」的宣傳

本文先來看 o3 (o3-mini) 跟 o1 的差異,其他的模型就先跳過。

技術能力比較分析 🧠

共同特色

o1 以及o3 都是推論模型,是透過強化學習 (Reinforcement Learning, RL) 訓練的新型大型語言模型,專門用於執行複雜的推理任務。推論模型在回答問題前會先進行思考,在給出最終回應前會產生較長的內部思維鏈 (Chain-of-Thought, CoT)。推論模型在解決複雜問題、程式撰寫、科學推理以及多步驟的 Agentic workflow 等方面表現出色。

  • 博士級解題能力
  • 擅長處理複雜科學計算
  • 在權威評測中表現優異:
    • ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)
    • AIME(American Invitational Mathematics Examination, 美國數學邀請賽)
    • GPQA(Graduate-Level Google-Proof Q&A Benchmark)

o3-mini 創新突破

  • 三級推理機制實現動態調適 (low-medium-high,目前只有在官網而非 API 提供)
  • STEM 領域性能提升
    • 用戶偏好度提升 56%
    • 錯誤率降低 39%

資源與效能 ⚡

1. 運算資源利用

模型 應用場景 資源需求
o1 高精度科研、競賽編程、複雜建模 高強度運算
o3-mini 通用 STEM 應用、日常對話、教育輔助 優化效能

2. 效能突破

  • token 計費降低 63%(相較原本的 o1-mini ,不過現在兩個模型都一樣便宜
  • 回應速度提升:
    • 平均處理時間:7.7 秒
    • 首個 token 延遲減少 2500ms

開發者生態系統 🛠️

API 提供 💻

目前 API 提供 o 家族模型以及計費 (per 1M tokens) 如下:

模型 (Text Tokens) Input Cached Input Output
o1 $15.00 $7.50 $60.00
o1-mini $1.10 $0.55 $4.40
o3-mini $1.10 $0.55 $4.40

安全與合規機制 🛡️

兩個模型均採用審慎對齊技術(deliberative alignment),簡單來說是讓模型先評估風險,再決定要不要回答。

  • 預防性安全推理
  • 降低危險回應風險
  • 加強系統安全邊界
  • 通過外部紅隊測試驗證

應用場景分析 🎯

場景類型 o1 o3-mini
科研應用 ✓✓✓ ✓✓
競賽程式 ✓✓✓ ✓✓
教育輔助 ✓✓ ✓✓✓
日常對話 ✓✓✓
開發整合 ✓✓✓

參考資料