近日,一家來自中國杭州的公司Deepseek在全球AI界刷屏!
12月26日,Deepseek發(fā)布了全新系列模型DeepSeek-v3,一夜之間霸榜開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及 Claude-3.5-Sonnet不分伯仲。
更讓海外AI界震驚的是,該模型的訓(xùn)練成本僅600萬美元,成本降低10倍,資源運(yùn)用效率極高。有AI投資機(jī)構(gòu)負(fù)責(zé)人直言,DeepSeek發(fā)布的53頁的技術(shù)論文是黃金。
據(jù)了解,Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。作為一家隱形的AI巨頭,幻方擁有1萬枚英偉達(dá)A100芯片,去年4月幻方宣布成立新組織,集中資源和力量,探索AGI的本質(zhì),在一年多時(shí)間里進(jìn)展迅速。
Deepseek再進(jìn)化
今年5月,Deepseek發(fā)布的一款名為DeepSeek V2的開源模型,因其史無前例的性價(jià)比,在AI界一躍成名。然而,僅僅過了半年多,Deepseek再度進(jìn)化。
12月26日,Deepseek稱,全新系列模型DeepSeek-v3首個(gè)版本上線并同步開源,該模型的多項(xiàng)評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
比如,在百科知識(shí)、長文本、代碼、數(shù)學(xué)、中文能力上的表現(xiàn),超越其他模型,尤其是在數(shù)學(xué)上,在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。
同時(shí),通過算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度從20 TPS大幅提高至 60 TPS,相比 V2.5 模型實(shí)現(xiàn)了3倍的提升。
值得注意的是,Deepseek將API服務(wù)價(jià)格,調(diào)整為每百萬輸入tokens 0.5元(緩存命中)/ 2元(緩存未命中),每百萬輸出tokens 8元。
Deepseek還決定為全新模型設(shè)置長達(dá)45天的優(yōu)惠價(jià)格體驗(yàn)期:即日起至2025年2月8日,DeepSeek-V3的API服務(wù)價(jià)格仍然是每百萬輸入tokens 0.1元(緩存命中)/ 1元(緩存未命中),每百萬輸出tokens 2元。
震驚海外AI界
最讓海外AI界震驚的是,在性能突出的同時(shí),該模型的訓(xùn)練成本大幅降低。
天使投資人Balaji稱,DeepSeek新開源模型僅花費(fèi)了560萬美元進(jìn)行訓(xùn)練,與GPT 4和Claude 3.5 Sonnet相當(dāng)。如果屬實(shí),成本將降低10倍以上。
Open AI創(chuàng)始成員之一,李飛飛的得意門生Andrej Karpathy表示,“今天,DeepSeek通過一個(gè)前沿級LLM的開放權(quán)重發(fā)布,讓這一切看起來輕而易舉,而其訓(xùn)練的預(yù)算卻非常低(2048個(gè)GPU運(yùn)行2個(gè)月,總成本600萬美元)?!?/p>
Andrej Karpathy分析,按照以往經(jīng)驗(yàn),這種能力級別的大模型,通常需要接近1.6萬張GPU,而目前行業(yè)內(nèi)的模型大多使用約10萬張GPU。例如,Llama 3 405B模型消耗了3080萬GPU小時(shí),而DeepSeek-V3僅用了280萬GPU小時(shí),計(jì)算需求減少了11倍。
“這是否意味著前沿LLM不需要大型GPU集群?不是,但你必須確保不浪費(fèi)你所擁有的資源,這看起來是一個(gè)很好的證明,表明在數(shù)據(jù)和算法方面還有很多工作要做?!盇ndrej Karpathy感慨。
Lepton AI創(chuàng)始人賈揚(yáng)清則表示,2019年,他和deepseek團(tuán)隊(duì)進(jìn)行了一次交流,希望向他們推銷AI云解決方案。并試圖說服他們,“不需要復(fù)雜云虛擬化,只需要容器和高效的調(diào)度程序;需要一個(gè)像NFS這樣的通用存儲(chǔ),不需要太花哨但必須速度快”等觀點(diǎn),這些觀點(diǎn)對市場上的許多參與者來說都是新穎的,需要一些說服力。
“但deepseek團(tuán)隊(duì)友善地告訴我,他們已經(jīng)這樣做很多年了。還讓他幫忙,將計(jì)算資源免費(fèi)捐贈(zèng)給大學(xué)研究實(shí)驗(yàn)室,且無附加條件?!辟Z揚(yáng)清稱,從某種程度上來說,他們?nèi)〉玫膫ゴ蟪删驮从诙嗄甑膶I(yè)知識(shí),但這點(diǎn)卻被許多人忽視了。
幻方量化CEO陸政哲在微信朋友圈表示,“看到楊清老師這段話,有點(diǎn)小感動(dòng)。”
前英偉達(dá)機(jī)器學(xué)習(xí)專家Bojan Tunguz則表示,所有針對高端半導(dǎo)體的出口禁令實(shí)際上可能以可以想象到的“最壞”方式產(chǎn)生了反效果。它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效。這似乎也證實(shí)了我自己的假設(shè),即我們距離擁有人工智能機(jī)器學(xué)習(xí)部分的最佳算法還有很長的路要走。
“AI界拼多多”
Deepseek的中文名是“深度求索”,為量化巨頭幻方量化的子公司。在硅谷,DeepSeek則被稱作“來自東方的神秘力量”。
作為一家隱形的AI巨頭,幻方擁有1萬枚英偉達(dá)A100芯片,而國內(nèi)擁有超過1萬枚GPU的企業(yè)不超過5家。在中國7家大模型創(chuàng)業(yè)公司中,Deepseek是最不顯山露水的一家。
去年4月,幻方宣布成立新組織,集中資源和力量,探索AGI的本質(zhì),在一年多時(shí)間里進(jìn)展迅速。當(dāng)時(shí)幻方就表示,多年以來,該公司堅(jiān)持把營收的大部分投入人工智能領(lǐng)域,建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,進(jìn)行大規(guī)模的研究,探索人類未知的奧秘。
“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點(diǎn)滴積累中孕育而來。我們將充分而持續(xù)地投入,不做中庸的事,用最長期的眼光去回答最大的問題?!?/p>
成立一年后,deepseek發(fā)布的一款名為DeepSeek V2的開源模型,提供了一種史無前例的性價(jià)比:推理成本被降到每百萬token僅1塊錢。隨后,字節(jié)、騰訊、百度、阿里巴巴等紛紛跟進(jìn),打響中國大模型價(jià)格戰(zhàn)。DeepSeek也被迅速冠以“AI界拼多多”之稱。
據(jù)了解,幻方量化和Deepseek創(chuàng)始人梁文鋒是一個(gè)極致的80后技術(shù)理想主義者,從幻方時(shí)代,就在幕后潛心研究技術(shù),在DeepSeek時(shí)代,依舊延續(xù)著他的低調(diào)作風(fēng),和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。
在接受暗涌的采訪中,梁文鋒表示,我們降價(jià)一方面是因?yàn)槲覀冊谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來了,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。
“過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展?!绷何匿h表示。
責(zé)編:桂衍民
校對:趙燕