​​Yun He Capital   

| 无锡太湖云和科技成果转化创投基金   | 广州南沙云合毅程创业投资基金

| 溧阳云禾添锋智能制造基金   | 湖州云合毅玺创投基金   | 云和县工投产业母基金

云和资本一周动态 | 03.24
来源: | 作者:云和资本 | 发布时间: 2025-03-24 | 60 次浏览 | 分享到:

本周看点:

   集创北方承办“新型显示产业与LED标准发展研讨会”圆满举行;速豹入选 “2025中国新晋未来独角兽排行榜”;安扬激光 2025慕尼黑上海光博会,圆满收官;补天科技云妇幼康全面接入DeepSeek-R1满血版;星恒电源连续8年荣膺3·15权威质量大奖;蔚复来首席运营官熊伟参加中国中小商业企业协会港澳参访交流活动;无锡产业集团获评上交所2024年度优秀发行人;诚通国贸到浙江金控调研交流。


云和产业观察


关于DeepSeek及其核心技术(三)

2.2 训练推理核心技术

图片

2.2.1 训练框架HAI-LLM

DeepSeek-V3在一个配备了2048个NVIDIA H800 GPU的集群上进行训练,使用的是自研的HAI-LLM框架,框架实现了四种并行训练方式:ZeRO 支持的数据并行、流水线并行、张量切片模型并行和序列并行。

 

这种并行能力支持不同工作负载的需求,可以支持数万亿规模的超大模型并扩展到数千个 GPU,同时还自研了一些配套的高性能算子haiscale,可以帮助 HAI-LLM 极大优化大模型训练的显存效率和计算效率。


2.2.2 核心算法DualPipe-创新流水线并行算法

i.通信计算重叠优化DeepSeek-V3应用了16路流水线并行(PP),跨越8个节点的64路专家并行(EP),以及ZeRO-1数据并行(DP)。


与现有的流水线并行方法相比,DualPipe的流水线气泡更少。同时重叠了前向和后向过程中的计算和通信阶段,解决了跨节点专家并行引入的沉重通信开销的挑战。DualPipe的关键思想是重叠一对单独的前向和后向块中的计算和通信:将每个块划分为四个组件:注意力、all-all调度、MLP和all-all组合。例如,假设我们有两个计算块,A和B:1.在块A进行前向传播计算时,可以同时进行块B的后向传播通信过程。2.当块A完成前向传播计算后,开始它的通信过程;而块B则开始它的前向传播计算。


图片


通过优化排列这些功能模块,并精确调控用于通信和计算的 GPU SM资源分配比例,系统能够在运行过程中有效隐藏全节点通信和 PP 通信开销。可以看出DeepSeek在PP这块,做了大量的通信计算重叠优化,从技术报告中看出,即使是细粒度的all-all专家通信,all-all的通信开销几乎为0。


图片


●计算通信重叠在深度学习大规模分布式训练过程中,通信的速度往往落后于计算的速度,如何在通信的gap期间内并行做一些计算就是高性能计算和通信重叠,是实现高效训练的关键因素。

●流水线并行气泡问题一些大的模型会采用流水线并行策略,将模型的不同层放在不同的GPU上,但是不同层之间有依赖关系,后面层需要等前面的计算完才能开始计算,会导致GPU在一段时间是闲置的,如下图所示:

图片

ii.跨节点全对全通信

DeepSeek还专门定制了高效的跨节点all-all通信内核(包括调度和组合)。具体来说:跨节点 GPU 通过 IB 完全互连,节点内通信通过 NVLink 处理,每个Token最多调度到 4个节点,从而减少 IB 通信量。同时使用warp专业化技术做调度和组合的优化。

在调度过程中,(1) IB 发送,(2) IB 到 NVLink 转发,以及 (3) NVLink 接收分别由各自的 warp 处理。分配给每个通信任务的 warp 数会根据所有 SM 上的实际工作负载动态调整。

在合并过程中,(1) NVLink 发送,(2) NVLink 到 IB 的转发和累积,以及 (3) IB 接收和累积也由动态调整的 warp 处理。

通过这种方式,IB 和 NVLink 的通信实现完全重叠,每个 token 能够在不产生 NVLink 额外开销的情况下,在每个节点上平均高效选择 3.2 个专家。这意味着,虽然 DeepSeek-V3 实际只选择 8 个路由专家,但它可以将这个数字扩展到最多 13 个专家(4 个节点 × 3.2 个专家/节点),同时保持相同的通信成本。DSV3采用了1个共享专家和256个路由专家的MoE架构,每个token会激活8个路由专家。

2.2.3 用于FP8训练的混合精度框架

这里并没有将全量参数FP8量化训练,大多数计算密集型操作都在FP8中进行,而一些关键操作则战略性地保留其原始数据格式,以平衡训练效率和数值稳定性。


哪些算子启用FP8量化去计算?取舍逻辑是什么?大多数核心计算过程,即 GEMM 运算,都以 FP8 精度实现。涉及对低精度计算的敏感性的算子,仍然需要更高的精度。一些低成本算子也可以使用更高的精度。

以下组件保留了原始精度(例如,BF16 或 FP32):Embedding模块、输出头、MoE 门控模块、Normalization算子以及Attention算子。

如何提高低精度训练精度?

细粒度量化对激活,在token维度采用group-wise的量化(1*128);对权重,采用128* 128的block-wise量化。

图片

提高累加精度在 TensorCore 上执行矩阵 MMA(矩阵乘法累加)操作时,每当累加达到一个间隔时,这些部分结果会被传输到 CUDA Cores 上的 FP32 寄存器中,并在那里进行FP32 精度的累加计算。

图片

2.2.4 MTP的训练目标

DeepSeekV3训练过程设置了多Token预测的目标,从技术报告的消融实验看出,确实提高了模型在大多数评估基准上的性能,而且MTP模块还可以用于推理加速。

图片

2.2.5 推理部署方案

DeepSeek-V3 整体参数量达到了671B,如此多的参数量,我们看下他的一个部署方案:推理部署采用了预填充(Prefilling)和解码(Decoding)分离的策略,确保了在线服务的高吞吐量和低延迟。通过冗余专家部署和动态路由策略,模型在推理时保持了高效的负载均衡。整套部署方案下来基本是跨机分布式推理。

2.2.5.1 Prefill 阶段

这个阶段简单说就是并行处理用户的Prompt,将其转为KV Cache。预填充阶段的最小部署单元由4个节点组成,每个节点配备32个GPU。注意力部分采用4路张量并行(TP4)和序列并行(SP),并结合8路数据并行(DP8)。其较小的TP规模(4路)限制了TP通信的开销。对于MoE部分,我们使用32路专家并行(EP32)

2.2.5.2 Decoder 阶段

这个阶段就是做自回归的每个Token的输出。解码阶段的最小部署单元由40个节点和320个GPU组成。注意力部分采用TP4和SP,结合DP80,而MoE部分使用EP320。对于MoE部分,每个GPU只承载一个专家,64个GPU负责承载冗余专家和共享专家。


|集创北方承办“新型显示产业与LED标准发展研讨会”圆满举行!


3月8日,由中国光学光电子行业协会发光二极管显示应用分会主办,集创北方承办的“新型显示产业与LED标准发展研讨会”在深圳宝安国际会展中心会议厅圆满举行。


图片


中国光学光电子行业协会党支部书记、秘书长姚大虎、中国光学光电子协会发光二极管显示应用分会理事长关积珍、ISLE展总经理李英杰、中国光学光电子行业协会副秘书长、光学元件和光学仪器分会秘书长程慧云、中国光学光电子行业协会发光二极管显示应用分会秘书长洪震、常务副秘书长张璐、副秘书长朱斌、蔡广超、计辉、沈嘉捷。中国电子技术标准化研究院研究员,TC547原全国平板显示器件标准化技术委员会原秘书长赵英、中国电子学会量子电子学与光电子学分会秘书长李燕兰、全国光辐射安全和激光设备标准化技术委员会秘书长戚燕、中国光学光电子行业协会学研技术部主任,红外分会常务副秘书长张寒松。台湾交通大学终身讲座教授、原副校长谢汉萍、北京交通大学教授徐征、中国电子报社长助理王雅静、大屏幕显示业绩榜CEO 张强、行家说CEO 蔡建东。洲明科技董事长林洺锋、艾比森董事长丁彦辉、京东方华灿光电董事长张兆洪、兆驰股份董事长顾伟、大华股份视讯事业部总裁陈建峰、集创北方董事长张晋芳,总经理简文明、利亚德海康威视、高科、海佳等业内知名屏厂领导等超百位来自显示协会、行业领军企业、科技媒体代表出席本次大会。

来源:集创北方


|速豹入选 “2025中国新晋未来独角兽排行榜”


近日,速豹作为新能源重卡领军企业入围铅笔道 X 真榜发布的 “2025中国新晋未来独角兽排行榜” 。


图片


来源:速豹


|安扬激光 2025慕尼黑上海光博会,圆满收官


3月11-13日,安扬激光即将携多款重磅产品亮相2025慕尼黑上海光博会,对话行业领袖,链接无限可能!


图片


(来源:超快安扬


|补天科技云妇幼康全面接入DeepSeek-R1满血版


日前,北京女娲补天科技信息技术有限公司联合清华大学和阿里云公司,成功实现DeepSeek-R1满血版本地化部署,并全面接入云妇幼康平台,标志着妇幼儿童保健管理服务迈入“AI+全周期儿童保健”的全新发展阶段。


图片


(来源:北京补天科技)



|星恒电源连续8年荣膺3·15权威质量大奖


星恒电源连续八年荣膺中国质量检验协会颁发的“全国质量检验稳定合格产品”、“全国产品和服务质量诚信承诺企业”荣誉证书。


图片

(来源: 星恒锂电池)


|蔚复来首席运营官熊伟参加中国中小商业企业协会港澳参访交流活动


3月10日至13日期间,中国中小商业企业协会代表团在港澳地区开展系列参访交流。蔚复来集团联合创始人、首席运营官熊伟受邀参加。


图片


(来源:蔚复来科技


|无锡产业集团获评上交所2024年度优秀发行人


日前,无锡产业集团获评上交所债券市场2024年度“优秀发行人(服务国家战略债券)”。


图片

(来源:无锡产业集团



|诚通国贸到浙江金控调研交流


3月18日,诚通国贸党委书记、董事长何建祥一行来浙江金控调研交流。浙江省财政厅党组成员,浙江金控党委书记、董事长杨强民,金控公司相关部门和子公司负责人参加座谈。


图片


(来源:浙江金控