中國的AI模型Deepseek V3在運算能力上甚至遠超ChatGPT 4o

Deepseek是大陸的某家AI公司，據我所知，通過訓練ChatGPT提供的答案和素材，在這個基礎之上，所訓練出來的模型

不僅訓練花費僅僅550萬美元，遠低於1個億的ChatGPT或者其他巨頭公司Google等所花費的幾千萬

同時性能層面上並駕齊驅甚至更好

還有模型是通過一堆英偉達的H800s，就是弱化版顯卡，僅僅花費2個月時間就訓練出來了

嚴格意義上講確實是抄襲

不過目前美國AI界和投資人是認為目前可以依靠極其低廉的價格和時間成本來訓練一個幾乎一樣的模型，這點讓人摸不著頭腦

其次，中國的這種IP抄襲，也沒法被告，因為在中國大陸

你們怎麼看？

UPDATE:

我提供一些參數吧

YouTube - Chinese start-up DeepSeek threatens American AI dominance

https://pomf2.lain.la/f/3rs6evv.png?width=1400&height=788

下圖為DeepSeek V3在英語、編程、數學和中文方面和其他AI的對比（數值越大越好）

https://pomf2.lain.la/f/6zk0zgz.jpg?width=1280&height=1091

下圖，橫向為所花費的資金，縱向為性能

DeepSeek V3目前相當於站在了一個黃金點裡面，性價比吊打GPT, Claude, Gemini

https://pomf2.lain.la/f/uz083a5e.jpg?width=1280&height=678

https://pomf2.lain.la/f/t2zwuc1x.png?width=1702&height=994

UPDATE 2:

OpenAI 的CEO Sam Altman對於DeepSeek的看法

「複製那些你知道「已經行得通的」是相對比較容易的

但是如果你嘗試做一些全新的、冒險的、難度大的而且你不知道它會不會成功的事的時候，是極度困難的

·······」

https://pomf2.lain.la/f/53ufsam.png?width=1280&height=1282

分享 2025-01-01

37 个评论

fb_china_today

現在號稱超過4o的
大數據模型
一大堆

寫稿子的小兔子不懂行情
其實都是監測標準的貓膩
和你們習主席公布的GDP差不多

用別人的模型訓練的確違反用戶協議
這個別人考慮到了不能細說

brfee 回复 fb_china_today

>> 現在號稱超過4o的大數據模型一大堆寫稿子的小兔子不懂行情其實都是監測標準的貓膩和你們習主席公布...

ChatGPT貌似是open source

但是如果同為美國公司可以起訴抄襲，但是跨國特別是跨中國就很難起訴了

fb_china_today 回复 brfee

>> ChatGPT貌似是open source 但是如果同為美國公司可以起訴抄襲，但是跨國特別是跨...

小兔子要精進業務開源的是另一個
你們從解放軍到企業騙習主席經費都靠那個

最后的皇女

用其他的公司训练过的精炼数据套进去肯定快啊

毛澤東有性病

畢竟是中國，肯定是用了春秋筆法

省略了一大堆的條件限制

還有忽略了各種錯誤

只專注在一個理論上限值，然後宣傳這是穩定的

一旦實際開始運用，就會一直報錯

渞席灡屗溮習噤评

支那猪永远逃不出多快好省的叙事陷阱，既要又要最后一定会什么都得不到，然后死的很惨

小魔女

没干货，不信🤨

zhengyi

在跑分和考试上中国人就没有输过。不就是个规则然后我们破解规则吗？钻规则的漏洞然后拿高分吗？轻车熟路啊。

Meltdown

这不就是十来年前微软玩的把戏吗，直接把Google的搜索结果拿来冒充Bing的搜索结果，然后被Google抓了现行。

rdhygj

问 deepseek是什么model，8次里有5次回答说是自己是ChatGPT

随便google一下就找到新闻了

guest_s

運算能力超強，可以秒變中共舔狗

guest_s 回复 zhengyi

>> 在跑分和考试上中国人就没有输过。不就是个规则然后我们破解规则吗？钻规则的漏洞然后拿高分吗？...

鑽規則漏洞從來沒輸過，設計規則從來沒贏過。🤣

shit_jin_pig

GPT-4o才150B的参数，中国山寨模型弄了600多B的参数，也就是说你用别人4倍的参数只比别人性能提升10%，这他妈是来搞笑的吧？

OrangSelatan

只要是在中國發行就別指望它能有什麽質的飛躍，言論審查擺在那呢。就像那個文心一言，判定用戶發了敏感問題，就要留底然後把數據傳給網警，呵呵。不過文心一言這種國產特色人工智障跟CHATGPT比簡直就是一坨SHIT （甚至還不如SHIT）🤢😂

lbow

你問Deepseek 是誰
它會回答「我是chatgpt」

ejdw32

造假的而已
中共都要崩溃了
骗经费哈哈
笑死了
还人工智能一个垃圾独裁政权民主都没有搞什么创新拉倒吧

brfee 回复 lbow

>> 你問Deepseek 是誰它會回答「我是chatgpt」

對但是貌似這是通過訓練ChatGPT提供的答案和素材之上的訓練模型

brfee 回复 Meltdown

>> 这不就是十来年前微软玩的把戏吗，直接把Google的搜索结果拿来冒充Bing的搜索结果，然后被...

確實是這樣⋯⋯

lbow 回复 brfee

>> 對但是貌似這是通過訓練ChatGPT提供的答案和素材之上的訓練模型

從無到有才是最困難的
就跟寫空白考卷和抄答案的難度一樣

這東東實際上就只是換個名字的盜版貨

燎原之火

这不还是开源转自研那一套吗，牛顿花大半辈子研究出了万有引力定律，我花一分钟谷歌一下就学会了甚至还知道了这个定律的应用范围受到哪些局限，所以我比牛顿聪明几万倍？

nyny

也就在AI編程比Claude 3.5弱，也太強了吧，關鍵還便宜可惜了是中共貨。

Toma2018

是的支又贏

brfee 回复 Toma2018

>> 是的支又贏

我覺得不完全是

這算是抄襲，如果不抄襲是做不到這種效果的

不动之矢

看到很多网评员在吹这个，应该是接到任务了，我的第一反应就是造假。

wgw2

中国还说自己有六代机呢，你信吗？

RobotRepublic

一个全员说假话的国家，能发展出什么AI！撒谎AI吗？连AI都会撒谎了，那才是真牛逼了

flyhigh 回复 brfee

>> 我覺得不完全是這算是抄襲，如果不抄襲是做不到這種效果的

可不可以这么理解：汽车是德国发明的，但是后来丰田抄袭的车性能超过了德国？

brfee 回复 flyhigh

>> 可不可以这么理解：汽车是德国发明的，但是后来丰田抄袭的车性能超过了德国？

不知道他這個相當於學習了別人學習後的結果

可以這麼理解

ChatGPT在第一次前往珠穆朗瑪峰的時候既不知道要怎麼上去，也不知道要用什麼上去

在死了幾十個科考隊，花費了10年的時間，他們在不斷的試錯過程中終於找到了一條崎嶇的山路可以通往珠穆朗瑪峰

然而DeepSeek在得知了ChatGPT通往珠穆朗瑪峰的那條路線後，則直接選擇只訓練自己的科考隊只爬那條已被前人發現的路，然後花費了更短的時間和更少的錢並訓練出來了一個和ChatGPT科考隊登山速度一樣的科考隊

所以DeepSeek也能爬珠峰，爬的速度跟ChatGPT一樣快甚至在某些彎道更快

這麼理解吧打個比方

陳根

https://www.facebook.com/share/p/17hfUcQV2W/

再探DeepSeek V3對產業的影響
一、參考騰訊科技貼文和DeepSeek V3論文，我們根據技術的來源大概將DeepSeek V3技術分為以下幾類:
1. 原本DeepSeek V2就有的技術，V3繼續使用，例如MLA(多層注意力)和DeekSeek MoE(混和專家模型)，假設這些都不是顛覆性技術，否則V2時就要轟動了
擷取騰訊貼文
"......确实，DeepSeek-V3所采用的核心技术中，多层注意力MLA技术存在已久、MTP技术来自今年4月Meta的论文，而R1的蒸馏和探索也是受到OpenAI和谷歌的启发。"
2. DeepSeek V3新加入的技術，包含無輔助損失負載均衡(減少負載均衡對模型性能的不利影響)、MTP多token預測、DualPipe演算法、計算/通信重疊、將該公司推理reasoning模型DeepSeek R1的部分納入LLM非推理模型訓練，這裡應該有部分技術是該公司"這一次"的亮點，也許值得發表幾篇論文
3. 既有技術的工程實現，例如FP8的預訓練、MoE的256+1架構設計、監督微調、強化學習
(1)預訓練部分運算階段可量化為FP8精度，部分階段要維持BF16以維持性能，以加速運算和節省VRAM，Nvidia的Transformer Engine函式庫就是自動在做這件事，DeepSeek等於是把Transfermer Engine客製化，因為Transfermer Engine雖是免費使用但source code並沒有開源，表示DeepSeek對CUDA有相當的工程能力，才能自行開發
(2)DeepSeek V3將MoE區分為256個別專家+1個共享專家，以往的MoE中各專家都有共用參數的部分，等於重複，例如8個專家中，每個專家的基本知識都會重複，DeepSeek等於再把這個共用部分抽離出來，減少重複更加精簡，把基本知識能力放在1個共享專家，每次推論時都會調用這個共享專家，另外在256個專家中抽8個，共9個專家來推論
至於這個256個專家，剛好等於一台HGX Server，該公司只用2048顆GPU，每台HGX Server有8顆GPU，2048/8=256台Server剛好等於256個專家數，雖然兩篇貼文沒寫，個人認為這是該公司特別針對影體資源設計的數字，可以最大化Server/node內NVLink的運算量和GPU-to-GPU通信量，最小化node-to-node之間Infiniband的通訊量，因為NVLink比Infiniband networking快了幾倍
騰訊科技也同意DeepSeek的主要貢獻是來自於工程能力(而非創新技術)
"......但在底层工程并行技术上，DeepSeek实际上做了很多创新。比如无辅助损失负载均衡来自DeepSeek八月的论文，Daulpipe也是DeepSeek的新尝试。.
至少在工程面上，DeepSeek的创新力并不差。"
二、再來探討對產業的影響
根據預訓練、後訓練、推論三個階段歸類，這樣歸類的理由是假設，對於資源尚有很大餘裕的巨頭來說，預訓練時效性(time-to-market)比成本更重要，因為競爭要素是時間和領先幅度，但推論成本對誰都重要，因為推論/大規模生產型production應用的競爭要素是成本
1.預訓練相關的技術
MLA架構的KV壓縮和Query壓縮、FP8混合精度、計算/通信重疊、無輔助損失負載均衡、MTP多token預測、DualPipe演算法
個人疑問是壓縮/解壓縮也需要花算力，除非計算機結構、AI理論和工程能力都強，找出空檔期利用
這些固然有獨創技術，但個人感覺都不是顛覆性的技術，因為大部分其論文中都有提到技術演進來源和參考前人論文等脈絡，這類獨門技術每家AI公司大概多少都有一些，巨頭們可能有更多，判斷要學習也不是難事
更重要的，如果是計算資源相對不餘匱乏的巨頭，是要花時間開發/實驗這些演算法? 還是花時間訓練模型? 那種比較快? 中國公司GPU計算資源有限，不得不選擇前者，巨頭們有必要嗎? 例如同樣GPU數量下，為了節省模型算力和訓練時間，例如將原本60天訓練期降為50天，卻要多花開發和試做實驗時間15天才能開始訓練，這樣還不如直接開始訓練
2.後訓練Post-trainning
個人覺得這個比較特殊，DeepSeek說他引入了一種創新方法，將長思維鏈(CoT)模型的推理能力提煉到標準LLM中顯著提高了DeepSeek V3的推理(reasoning)性能，同時保持對輸出樣式和長度的控制，這不知道是什麼東西
3.推論相關的技術
KV壓縮降低KV緩存需求、MTP多token預測
個人疑問是KV Cache就是為了節省資料傳輸所增加的VRAM佔用量，現在把KV Cache降低了，不是會增加原來想要降低的資料傳輸次數嗎?
還有一點，DeepSeek V3的推論token價錢有兩種，緩存命中和緩存沒命中，價錢差了四倍或十倍，不確定這個緩存是不是指KV Cache，DeepSeek V3技術特色之一就是大幅降低KV Cache，那這樣低價格的緩存命中token不是會減少？高價的token不是會增加？但大家都是用命中低價來報導是不是太極端？
之前騰訊文說過，MLA技術存在已久，MTP技術來自於2024/4月Meta的論文，所以，最可能影響產業生態的推論部分，好像也沒什麼顛覆性
關於MoE常有的缺點: 泛化能力較差，在騰訊文中也有類似觀點(專業能力勝過通用能力)
"但从Benchmark本身和DeepSeek的技术报告中，我们也可以看出DeepSeek-V3在一些层面上是有偏科的。它的创意生成相对薄弱，开放性任务表现一般，结构化思维的能力远高于发散思维。甚至在专业领域比通用领域表现的更好。"
轉貼文有FutureLabs未來實驗室首席專家胡延平的七點看法摘要:
(1)效率方法淋漓盡致、沒有底層原理創新
(2)大模型向上發展通用AI能力、向下重成本算力，DeepSeek偏向下，意味對通用AI沒什麼幫助
(3)DeepSeek沒有展現分毫對未來的探索，只是再一次強調性價比
(4)DeepSeek呈現較高費效比的關鍵(因此局部不穩定也是必然)，14.8T資料集、671B參數、MoE、256專家選8、37B啟動參數，整個設計大戶經濟適用，但接下來一段時間還是在古典LLM範疇
(5)DeepSeek V3味道像極了小米SU7
(6)DeepSeek V3能不能有流量不好說，等下一版本
(7)由此顛覆的模型與算力關係更說不上，接下來大家會更清楚的看到，這個領域有捷徑但沒有彎道超車，有後發成本優勢但沒有後發領先優勢，AGI路線更是只能取巧沒有投機......向上曲線的模型思考長度速度整體度、多模態、感知思考與行為能力合一等方向，只可能將算力需求拉高到新高度，向下曲線對成本效率有改變，但對捧得AGI聖杯的貢獻可以忽略
騰訊科技不完全同意以上七點，幫說話
"但他却忽视了一个基本事实：在深度学习时代，规模效应本身就是算法创新的催化剂。......当下AI之所以难以渗透落地，很大的原因正是因为成本还不够低。尤其是在模型进入强化学习时代后，o1的成本更是高的难以让人向下进入日常。......而这正是DeepSeek-V3所做的尝试价值所在。它展示了一种新的可能性：在工程实现和理论创新之间找到平衡点。它不是在追随OpenAI或Anthropic的路径，而是开创了一条符合现实约束的技术进化道路。"
另外，還有人擔心Scaling Law之類的，更是多慮了，第一，MoE參數尺寸大小不能和一般模型比，第二，DeepSeek V3的參數還是比DeepSeek V2大很多才有這種能力阿，所以MoE中，同一家公司中，參數越大還是越強，演算法、資料多少、模型大小(後兩者和算力相關)，還是模型性能的三要素
我不是工程背景、也不是程式師、當然更不是專家，理解有限更可能有誤，請專家多指教，但還是要硬著頭皮判斷一下對產業的影響
結論: DeepSeek V3是工程傑作，論文佳作(每天都有很多論文發表)，改善基礎模型訓練資源限制和成本，推論成本貢獻不明顯，(成本降低10倍是正常MoE模型的特色見註)，MoE優點發揮淋漓盡致但缺點泛化能力似乎仍無法克服，對AI能力/AGI無貢獻，整體有貢獻但無顛覆，對產業各要角影響有限，相比最近的轟動市場，我的一句話結論是: 到此為止
https://arxiv.org/html/2412.19437v1
https://wallstreetcn.com/articles/3738170
https://www.facebook.com/share/p/1G7mcnArXe/
註1: MoE稀疏模型成本比一般稠密模型低很多，和一般稠密Transformer模型主要有兩個地方不同
(1)稀疏的MoE層取代了傳統Transformer模型中的前饋網路(FFN)層，MoE層包含數個專家單獨的神經網路，例如8個專家、256個專家
(2)門控網路gating layer用於確定向那個(或那幾個)專家網路發送token，所以不是每個token都要跑過全部參數，訓練和推論的Token都不用跑過全部的參數，總計算量(成本)因此就只有一般模型的幾分之一，例如一般500億參數LLM每個token要跑過500億參數，像Mistral 8x7B這種8個專家的MoE模型，token進來門控網路若把它分給數學專家，那計算量就只有500億參數大約1/8，如果分給數學和程式兩個專家，那計算量大約是一般LLM的1/4
2022年Google發表的Switch Transformer，模型參數大小是T5-XXL的15倍，在相同計算時數下，Switch Transformer模型比T5-XXL模型快4倍

呵呵呵呵呵呵

据说一开始的时候，有人问Deep Seek“你是谁”，它回答“我是ChatGPT”🤣

zhengyi

三大科技骗局重灾区：AI 电车比特币。里面充满了热钱和骗子。

除了比特币中共能在另外这两个领域做出显著成绩。这并不令人惊诧。

因为类似电车。本来电车的门槛体应该体现在无人驾驶。现在被中共扭转角度成了电池的技术。

伪AI的门槛体应该体现在未知问题的探索和解决，现在又被中共扭转角度，变成了低成本。所谓deepseek就是ai届的拼多多。这种能算是赞誉？而且具体到训练成本和费用，他嘴唇一动就是一个股市的概念而已。你能去验证？他说用五十万美元最落后芯片搓出来的。热钱和骗子就心慌。如果有真正护城河的公司是不担心这些的。

就因为欧美大厂在这两方面都没能做出什么真正的成绩。没能建立真正的护城河。完全是靠泡沫维持热度所以才让中共有了扭转角度的机会。

这种事情炒作到最后，只有股市才是最终的决胜地。和人类科技进步没什么大关系。欧美科技公司和股市再堕落下去。和中国人一起坑和骗。最终就是一个川普货币罢了。