DeepSeek的出現(xiàn),不僅在技術(shù)上取得了突破,更在AI領(lǐng)域引發(fā)了深遠(yuǎn)的影響。DeepSeek 改變 AI 游戲規(guī)則主要體現(xiàn)在以下幾方面:
- 訓(xùn)練成本與效率:在訓(xùn)練 DeepSeek-V3 這個(gè)參數(shù)量高達(dá) 671b 的大模型時(shí),僅使用 2048 塊 GPU 訓(xùn)練 2 個(gè)月,花費(fèi) 557.6 萬(wàn)美元,訓(xùn)練過(guò)程僅用了不到 280 萬(wàn)個(gè) GPU 小時(shí)。相比之下,OpenAI 等為維持在 AI 領(lǐng)域的優(yōu)勢(shì)地位每年要花費(fèi)上百億美金,這表明 DeepSeek 以較低成本和較高效率實(shí)現(xiàn)了大模型訓(xùn)練,打破了過(guò)往認(rèn)為只有巨額投入才能訓(xùn)練出頂級(jí)模型的認(rèn)知。
- 模型性能:DeepSeek 推出的多個(gè)模型性能出色。如 DeepSeek-V3 在知識(shí)類任務(wù)上水平顯著提升,接近 Claude-3.5-sonnet-1022,在美國(guó)數(shù)學(xué)競(jìng)賽和全國(guó)高中數(shù)學(xué)聯(lián)賽上大幅超過(guò)其他開(kāi)源閉源模型;DeepSeek-Coder-V2 在代碼特定任務(wù)中達(dá)到與 GPT4-Turbo 相當(dāng)?shù)男阅,還將支持的編程語(yǔ)言從 86 種擴(kuò)展到 338 種,將上下文長(zhǎng)度從 16k 擴(kuò)展到 128k。
- 技術(shù)創(chuàng)新:其核心產(chǎn)品 DeepSeek-R1 在三維空間推理方面達(dá)到 87.6% 的準(zhǔn)確率,跨模態(tài)意圖理解的 F1 值高達(dá) 91.2%,突破了機(jī)器人技術(shù)瓶頸,為提升機(jī)器人決策速度與反應(yīng)能力帶來(lái)潛力,在具身智能領(lǐng)域有重大技術(shù)創(chuàng)新。
- 重新定義競(jìng)爭(zhēng)壁壘:過(guò)去 AI 行業(yè)認(rèn)為大量資金與硬件投入是取得領(lǐng)先的關(guān)鍵,DeepSeek 證明了數(shù)千萬(wàn)美元的投資也能取得顯著成果。如 UC 伯克利博士生潘家怡復(fù)現(xiàn) DeepSeek R1-Zero,整個(gè)實(shí)現(xiàn)成本不到 30 美金,說(shuō)明低成本構(gòu)建具備推理能力的模型成為可能,預(yù)訓(xùn)練模型的巨額投入不再是必需,這顛覆了傳統(tǒng)競(jìng)爭(zhēng)模式。
- 開(kāi)源模式?jīng)_擊:與 OpenAI 的閉源路線不同,DeepSeek 選擇完全開(kāi)源,將代碼、模型權(quán)重和訓(xùn)練日志全部公開(kāi)。當(dāng)開(kāi)源模型性能能與閉源模型相媲美甚至在部分領(lǐng)域超越時(shí),會(huì)吸引越來(lái)越多開(kāi)發(fā)者,降低構(gòu)建應(yīng)用程序的成本,促進(jìn) AI 行業(yè)的創(chuàng)新和發(fā)展,就像安卓系統(tǒng)對(duì)手機(jī)行業(yè)的影響,可能使 AI 行業(yè)生態(tài)更加繁榮。
- 突破外部限制:在 GPU 短缺和芯片禁運(yùn)的背景下,DeepSeek 作為一家中國(guó)公司,僅依靠少量硬件配置和幾十名年輕的博士生就完成了跨越式的技術(shù)突破,這表明即使在外部環(huán)境受限的情況下,通過(guò)創(chuàng)新和開(kāi)放的技術(shù)交流,依然能在 AI 領(lǐng)域取得重大進(jìn)展,打破了美國(guó)的 AI 資源限制和技術(shù)封鎖。
- 彰顯發(fā)展路線差異:DeepSeek 的出現(xiàn)代表了中國(guó) AI 發(fā)展追求效率極限的路線,與美國(guó)押注模型能力提升的路線形成對(duì)比,為全球 AI 發(fā)展提供了不同的思路和方向,促使各國(guó)重新審視自身 AI 發(fā)展策略,推動(dòng)全球 AI 行業(yè)多元化發(fā)展。隨著AI應(yīng)用的逐漸落地,模型效率將會(huì)成為打通中國(guó)大模型商業(yè)化循環(huán)的一把“鑰匙”。
|