认真提问,支那deepseek的成本比chatGPT少是什么意思?

看到品葱有人提到chaGPT用了150B的语料,而支那的AI用来600B。 按道理来说用的语料越多应该成本就越高,这到底是什么回事?应该不是透过压榨农民工的吧?那不把洋大人笑死?
梁振英 中國人民政治協商會議全國委員會副主席
原文從LinkedIn轉過從不知鏈結有沒有個人資訊,就不放了。

首先,文章贡献主要来自系统(Training Infra),而非模型本身。模型本身依然基于传统的Transformer:

1)他们世界首创在大规模LLM训练中系统性部署fp8(8位浮点)量化技术,这大大降低训练对显卡内存的需求,也加快了训练过程;

2)为了正确使用fp8的矩阵乘法,他们优化并改进了CUDA Kernal的调用方式,甚至给NVDA提出了诸多Tensor Core方面的设计建议

3)他们开发了自己的训练框架DualPipe,实现了16/64通道的流水线和专家(MOE)并行,极大改善了并行训练中的通信和计算冲突问题,解决了调度瓶颈。

最终,DeepSeek实现了在2048个H800上的集群训练。

其次,文章中大部分改进是渐进式的,而非革命性的:

1)上下文拓展实际上来自2023年文章YaRN;在MTP方面,最终DeepSeek V3只实现了N=1的MTP,也即比传统的GPT多预测一个词;

2)MOE所引入的Aux-Loss-Free Load Balancing技术,其实仅仅是在传统Expert的分配算法面前加入了一个bias term b_{i};

3)DeepSeek MOE上的另一个革新是加入了“共享Expert”,并保证训练时对于每个Token,这些Expert最多分布在4个node上,以减少通信瓶颈。

4)其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent Space存入Cache,提高存储速度;这有利于推理任务加速。

5)利用自己在量化交易中的经验,创造性地将某些移动平均值(如Adam参数状态)存在CPU中,减少并行开销,等等

当然,能够将如此多新的细节整合在一起,并获得一个几乎没有任何Loss Spike的平滑的训练框架,这不得不说是一个奇迹。

最后,DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验

Deep Seek证明了:

1)推理能力可以通过RL获得,

2)推理能力可有效的被蒸馏到更小的模型上去。

虽然他们也同时观察到,蒸馏可能让小模型的输出变得更长,语言效率降低。此外,如果RL的Reward Model过于简单,这可能会让模型推理仅限于数学和代码任务
fb_china_today https://pincong.rocks/topic/反中国梦系列
To people who see the performance of DeepSeek and think:
"China is surpassing the US in AI."
You are reading this wrong.
The correct reading is:
"Open source models are surpassing proprietary ones."

DeepSeek has profited from open research and open source (e.g. PyTorch and Llama from Meta)
They came up with new ideas and built them on top of other people's work.
Because their work is published and open source, everyone can profit from it.
That is the power of open research and open source.

-- Yann LeCun

他这是比较婉转的说那东西用了别人的模型训练 (违反用户协议 用llama训练别的模型也是不允许)

这样会节省很多数据开销,

不过考虑社会制度不同这样做也是可以预料, 没啥抱怨

等几天人们使用效果就会有更多反馈(目前没多少人真的用过), 党国可要准备好接着花钱
deepseek就跟假芯片騙經費

是一個套路的   這都感覺不出來那也是暈了

等著看吧
就是韭菜便宜的意思😂藝術藝術藝術藝術藝術藝術
天下无贼 你想多了…………
1,用的GPU卡比较少,貌似最初说只需1/20,现在说是1/10,鉴于DS是开源的,这个恐怕做不了假,拿到代码有实力的公司跑一遍就知道了。

2,不基于英伟达CUDA架构,所以不需要一定购买英伟达家的卡,用其他厂商的算力卡也可以,现在英伟达家卡最贵,所以可以进一步降低成本

要发言请先登录注册