DeepSeek的出現(xiàn),不僅在技術上取得了突破,更在AI領域引發(fā)了深遠的影響。DeepSeek 改變 AI 游戲規(guī)則主要體現(xiàn)在以下幾方面:
- 訓練成本與效率:在訓練 DeepSeek-V3 這個參數(shù)量高達 671b 的大模型時,僅使用 2048 塊 GPU 訓練 2 個月,花費 557.6 萬美元,訓練過程僅用了不到 280 萬個 GPU 小時。相比之下,OpenAI 等為維持在 AI 領域的優(yōu)勢地位每年要花費上百億美金,這表明 DeepSeek 以較低成本和較高效率實現(xiàn)了大模型訓練,打破了過往認為只有巨額投入才能訓練出頂級模型的認知。
- 模型性能:DeepSeek 推出的多個模型性能出色。如 DeepSeek-V3 在知識類任務上水平顯著提升,接近 Claude-3.5-sonnet-1022,在美國數(shù)學競賽和全國高中數(shù)學聯(lián)賽上大幅超過其他開源閉源模型;DeepSeek-Coder-V2 在代碼特定任務中達到與 GPT4-Turbo 相當?shù)男阅,還將支持的編程語言從 86 種擴展到 338 種,將上下文長度從 16k 擴展到 128k。
- 技術創(chuàng)新:其核心產(chǎn)品 DeepSeek-R1 在三維空間推理方面達到 87.6% 的準確率,跨模態(tài)意圖理解的 F1 值高達 91.2%,突破了機器人技術瓶頸,為提升機器人決策速度與反應能力帶來潛力,在具身智能領域有重大技術創(chuàng)新。
- 重新定義競爭壁壘:過去 AI 行業(yè)認為大量資金與硬件投入是取得領先的關鍵,DeepSeek 證明了數(shù)千萬美元的投資也能取得顯著成果。如 UC 伯克利博士生潘家怡復現(xiàn) DeepSeek R1-Zero,整個實現(xiàn)成本不到 30 美金,說明低成本構建具備推理能力的模型成為可能,預訓練模型的巨額投入不再是必需,這顛覆了傳統(tǒng)競爭模式。
- 開源模式?jīng)_擊:與 OpenAI 的閉源路線不同,DeepSeek 選擇完全開源,將代碼、模型權重和訓練日志全部公開。當開源模型性能能與閉源模型相媲美甚至在部分領域超越時,會吸引越來越多開發(fā)者,降低構建應用程序的成本,促進 AI 行業(yè)的創(chuàng)新和發(fā)展,就像安卓系統(tǒng)對手機行業(yè)的影響,可能使 AI 行業(yè)生態(tài)更加繁榮。
- 突破外部限制:在 GPU 短缺和芯片禁運的背景下,DeepSeek 作為一家中國公司,僅依靠少量硬件配置和幾十名年輕的博士生就完成了跨越式的技術突破,這表明即使在外部環(huán)境受限的情況下,通過創(chuàng)新和開放的技術交流,依然能在 AI 領域取得重大進展,打破了美國的 AI 資源限制和技術封鎖。
- 彰顯發(fā)展路線差異:DeepSeek 的出現(xiàn)代表了中國 AI 發(fā)展追求效率極限的路線,與美國押注模型能力提升的路線形成對比,為全球 AI 發(fā)展提供了不同的思路和方向,促使各國重新審視自身 AI 發(fā)展策略,推動全球 AI 行業(yè)多元化發(fā)展。隨著AI應用的逐漸落地,模型效率將會成為打通中國大模型商業(yè)化循環(huán)的一把“鑰匙”。
|