认真提问，支那deepseek的成本比chatGPT少是什么意思？

看到品葱有人提到chaGPT用了150B的语料，而支那的AI用来600B。按道理来说用的语料越多应该成本就越高，这到底是什么回事？应该不是透过压榨农民工的吧？那不把洋大人笑死？

时间
票数

5 个回复

梁振英中國人民政治協商會議全國委員會副主席

原文從LinkedIn轉過從不知鏈結有沒有個人資訊，就不放了。

首先，文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer：

1）他们世界首创在大规模LLM训练中系统性部署fp8（8位浮点）量化技术，这大大降低训练对显卡内存的需求，也加快了训练过程；

2）为了正确使用fp8的矩阵乘法，他们优化并改进了CUDA Kernal的调用方式，甚至给NVDA提出了诸多Tensor Core方面的设计建议

3）他们开发了自己的训练框架DualPipe，实现了16/64通道的流水线和专家（MOE）并行，极大改善了并行训练中的通信和计算冲突问题，解决了调度瓶颈。

最终，DeepSeek实现了在2048个H800上的集群训练。

其次，文章中大部分改进是渐进式的，而非革命性的：

1）上下文拓展实际上来自2023年文章YaRN；在MTP方面，最终DeepSeek V3只实现了N=1的MTP，也即比传统的GPT多预测一个词；

2）MOE所引入的Aux-Loss-Free Load Balancing技术，其实仅仅是在传统Expert的分配算法面前加入了一个bias term b_{i}；

3）DeepSeek MOE上的另一个革新是加入了“共享Expert”，并保证训练时对于每个Token，这些Expert最多分布在4个node上，以减少通信瓶颈。

4）其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent Space存入Cache，提高存储速度；这有利于推理任务加速。

5）利用自己在量化交易中的经验，创造性地将某些移动平均值（如Adam参数状态）存在CPU中，减少并行开销，等等

当然，能够将如此多新的细节整合在一起，并获得一个几乎没有任何Loss Spike的平滑的训练框架，这不得不说是一个奇迹。

最后，DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验

Deep Seek证明了：

1）推理能力可以通过RL获得，

2）推理能力可有效的被蒸馏到更小的模型上去。

虽然他们也同时观察到，蒸馏可能让小模型的输出变得更长，语言效率降低。此外，如果RL的Reward Model过于简单，这可能会让模型推理仅限于数学和代码任务

fb_china_today https://pincong.rocks/topic/反中国梦系列

To people who see the performance of DeepSeek and think:
"China is surpassing the US in AI."
You are reading this wrong.
The correct reading is:
"Open source models are surpassing proprietary ones."

DeepSeek has profited from open research and open source (e.g. PyTorch and Llama from Meta)
They came up with new ideas and built them on top of other people's work.
Because their work is published and open source, everyone can profit from it.
That is the power of open research and open source.