NVIDIA GTC 2026 架构发布与技术创新
Vera Rubin 全栈 AI 平台
创新点: 七芯片全栈平台,Vera CPU (88核 Olym) + Rubin GPU (288GB HBM) + NVLink-C2C 相干互连,实现机架级单系统抽象。
详细技术方案
Vera CPU 采用 88 核定制 NVIDIA "Olym" Arm 架构,支持大规模 LPDDR5x 配置。Rubin GPU 配备 288GB HBM,通过 NVLink-C2C 与 Vera CPU 实现缓存一致性互连。整个平台包含 7 款芯片、5 种机架级系统和 1 台超级计算机,支持线性性能扩展。数字孪生工具可在软件中模拟 AI 工厂后再构建物理基础设施。
通信架构
NVLink-C2C 提供 CPU-GPU 相干互连,Kyber 网络支持铜缆和共封装光学 scale-up,Spectrum 类光学 scale-out。BlueField-4 STX 提供存储加速。
Feynman 架构 + LPU LP40 + BlueField-5
创新点: 下一代架构融合 LP40 LPU、BlueField-5 DPU、CX10 网卡,Kyber 铜缆+共封装光学 scale-up 网络。
详细技术方案
Feynman 架构代表 NVIDIA 下一代 LPU (Language Processing Unit) 设计,LP40 专门针对 agentic AI 工作负载优化。BlueField-5 STX 提供增强的存储和网络加速,CX10 智能网卡提供可编程数据平面。Kyber 网络同时支持铜缆和共封装光学 (CPO) scale-up,Spectrum 类光学 scale-out 实现大规模集群互连。
相关资源
GTC 2026 NewsNVLink + NVSwitch 大模型推理加速
创新点: NVLink 提供 900GB/s 双向 GPU-GPU 带宽,NVSwitch 实现机架级全互联拓扑,支撑 LLM 推理的集合通信。
详细技术方案
NVLink 第五代提供 900GB/s 双向带宽,NVSwitch 实现 72 GPU 全互联拓扑。支持 NCCL 集合通信库的 AllReduce、AllGather、Broadcast 原语在交换机级别硬件卸载。HGX 平台支持共享 NVSwitch GPU 透传虚拟化,允许多租户安全共享互连资源。
GPU MMU 与内存管理专利组合
创新点: 分层 MMU 架构、TLB 局域感知预取、统一内存架构下的 CPU/GPU 页表共享,提升地址转换效率。
US20240202136A1 - MMU 页表遍历
MMU 包含 TLB 配置,支持高效的页表遍历 (page table walk) 机制。通过硬件加速减少地址转换延迟,对 GPU 大规模并行内存访问至关重要。
US9514559B2 - 统一内存架构
MMU 包含 CPU 页表,支持统一内存架构下 CPU/GPU 共享虚拟地址空间。消除显式数据拷贝,简化编程模型。
US11620256B2 - 缓存效率优化
MMU 包含一组页表条目 (PTE),优化缓存效率和利用率。通过段/页表层次结构减少 TLB miss 惩罚。
LATPC - 局域感知 TLB 预取
ACM 论文提出 LATPC,利用空间和时间局域性预取 TLB 条目,显著降低 GPU 地址转换延迟。
US11822491B2 - Fabric Attached Memory 高效技术
创新点: 将内存直接连接到高速可扩展 fabric,利用 fabric 拓扑优势实现高效内存访问和池化。
详细技术方案
通过将内存直接连接到可扩展高速 fabric (如 NVLink/NVSwitch),利用 fabric 拓扑和路由优势实现高效的内存访问。支持内存池化和跨多 GPU 共享,减少数据搬移开销。对构建大规模 AI 训练集群的内存解聚架构具有指导意义。
专利链接
查看原始专利GDRCopy - GPU 直接内存访问库
创新点: 低延迟 GPU 内存拷贝库,支持 GPUDirect RDMA 零拷贝数据流,绕过 CPU 直接实现 GPU-NIC 数据传输。
详细技术方案
GDRCopy 提供快速的 GPU 内存拷贝能力,结合 GPUDirect RDMA 实现 GPU 与网络接口卡之间的直接数据传输,绕过 CPU 和系统内存。内存分配器实现零拷贝数据流,信息收集器优化传输路径。对分布式训练中的梯度聚合和参数同步至关重要。
AMD MI400 / MI350X 与 ROCm 通信栈
AMD MI400 / MI350X + UALoE72 超节点
创新点: MI350X 通过 UALoE72 实现 72 GPU 互连,MI400 采用 CDNA 4 架构,MI500 规划 UAL256 支持 256 GPU 超节点。
详细技术方案
MI350X 基于 CDNA 4 架构,通过 UALoE72 (UALink over Ethernet 72 GPU) 实现节点内互连。MI400 进一步提升带宽和能效。MI500 规划采用 UAL256 支持 256 GPU 超节点。ROCm 7.0 的 RCCL 集合通信库经过优化,支持 UALink 和以太网混合拓扑。AMD 路线图包含 CDNA 和 UDNA 两代架构。
软件实现
ROCm 7.0 提供 RCCL (ROCm Collective Communication Library),支持 AllReduce、AllGather、Broadcast 等原语。GPU-aware MPI 通过 RCCL 路由实现最优 GPU-GPU 带宽。ROC_SHMEM 提供 PGAS 单向通信支持。
UALink 开放加速器互连标准
创新点: AMD/Intel/Google/Meta 联盟开放标准,挑战 NVLink 垄断,每通道 200GT/s,支持 1024 设备/pod,亚微秒延迟。
详细技术方案
基于 AMD Infinity Fabric 技术,支持每计算 pod 最多 1024 设备,亚 1 微秒往返延迟,功耗仅为典型以太网网络 1/3-1/2。提供标准化 API 层支持异构加速器间设备到设备消息传递。400G 变体规范已在起草中。
规范链接
UALink 1.0 规范 PDFIntel CXL 4.0 与 GPU-Initiated 网络
CXL 4.0 规范 - 内存池化革命
创新点: 128 GT/s (PCIe 7.0),x16 通道 512GB/s,内存池超 100TB,延迟 200-500ns,能耗降低 33%。
详细技术方案
引入逻辑端口捆绑 (聚合),支持最多 4 个 retimer 跨多 rank 扩展,原生 x2 通道低成本选项。支持 CXL.mem 和 CXL.cache 协议,实现缓存一致性内存访问。内存池化支持超过 100TB 容量,从根本上改变 AI 集群资源分配模式。
规范链接
CXL 4.0 Webinar PDFUS20250199969A1 - CXL.mem 与 CXL.cache 事务转换
创新点: CXL 架构内 CXL.memory 与 CXL.cache 协议读事务转换机制,支持混合设备类型相干 inter-socket 通信。
详细技术方案
在 CXL 架构内提供 CXL.memory 和 CXL.cache 协议读事务转换机制。支持使用不同 CXL 子协议设备间的相干 inter-socket 通信。对构建 CXL 交换拓扑与混合设备类型至关重要。
专利链接
查看原始专利US20240281249A1 - GPU 加载存储缓存 NIC 微架构
创新点: 可编程网络接口集成加载/存储缓存,支持 GPU 直接发起网络操作,通信与计算并行。
详细技术方案
计算单元与网络接口间直接数据通路,支持 GPU/加速器无需 CPU 干预即可发起网络操作。通信与计算并行进行。可编程 NIC 提供 API 支持从 GPU 内核直接排队网络操作。
专利链接
查看原始专利Ultra Ethernet 规范 v1.0
创新点: Intel/AMD/Meta 等联合高性能以太网标准,集合通信卸载,挑战 InfiniBand 垄断。
详细技术方案
在标准以太网基础上增加集合通信卸载、传输层改进、拥塞控制和自适应路由。提供 libfabric 兼容 API,支持 reduce/broadcast/all-reduce 在 NIC/交换机级别卸载。
规范链接
UEC 规范 PDF华为 Ascend 950 与灵衢超节点架构
Atlas 950 SuperPod - 灵衢超节点架构
创新点: 基于灵衢总线的全对等高速互联,单柜 64 卡,最大 8192 卡超节点,实现计算/存储/网络资源池化,384 芯片全互联集群首展海外市场。
详细技术方案
灵衢 (Lingqu) 总线实现全对等高速互联架构,基于系统工程方法对计算、内存、存储、网络进行资源池化。Atlas 950 SuperPod 以单柜 64 卡为基本单元,最大支持 8192 卡扩展。384 颗昇腾 AI 芯片全对等互联,通过融合算子集成通信计算,微批流水线隐藏通信延迟。解耦架构分离 KV cache 管理。
软件实现
HCCL (Huawei Collective Communication Library) NB 2.0 提供集合通信优化。融合算子替代全局同步,集成 token 分发、专家计算和结果聚合。微批调度在 prompt 处理和 token 生成期间用计算隐藏通信。
昇腾芯片三年迭代路线图 (2026-2028)
创新点: 2026 Q1 Ascend 950PR、2026 Q4 Ascend 950DT、2027 百万卡超节点集群、2028 下一代架构,支持业界标准协议。
信号驱动计算通信重叠 (arXiv:2504.19519)
创新点: Tile-wise 重叠最大化并发,信号驱动触发,波组动态调度,扩展 CUTLASS 矩阵例程实现计算传输真正并行。
详细技术方案
矩阵计算发射完成标记立即启动数据传输,消除计算暂停。执行批次动态大小平衡传输粒度和带宽效率,通过预测搜索优化。传输前数据重排创建连续缓冲区,传输后恢复。专用监控内核通过原子计数器跟踪进度。独立执行流分别管理计算和传输工作流。
论文链接
arXiv 原文阿里 双通道通信分离
CN117669700B - 深度学习训练通信分离
创新点: 参数存储与传播并行,双通道通信分离梯度聚合和参数保存,确保存储时间开销不超过传播计算时间开销。
详细技术方案
同步参数归档与前向/反向传播周期消除计算停机。分离数据传输路由:一条专用通道用于节点间梯度聚合,另一条用于参数保存,防止通信瓶颈。确保 "模型参数存储时间开销不超过传播计算时间开销"。
专利链接
查看原始专利百度 MoE 张量并行通信优化
US20250036920A1 - MoE 张量并行通信优化
创新点: MoE 参数张量并行分段,混合通信框架,部分传输协议降低 All-to-All 通信量。
详细技术方案
将张量并行分割应用于稀疏 MoE 参数,防止专家网络权重过大导致内存溢出。构建集成张量和数据并行的混合通信框架。门控网络动态路由处理数据到选定专家节点。仅传输部分内容,并行设备重组完整输出。
专利链接
查看原始专利寒武纪 MLU-Link 芯片间通信
WO2024119869A1 - MLU-Link 协程调度通信
创新点: 协程自愿睡眠/唤醒替代 OS 线程切换,四阶段状态机跟踪进度,非抢占式调度器管理通信原语序列。
详细技术方案
通信操作组织为原语序列由非抢占式协程调度器管理。串行操作遇到拥塞时处理器睡眠并保存状态,硬件触发唤醒时扫描序列跳过已完成步骤。支持异步确认和原语跳转自动重试。大幅降低通信上下文切换开销。
专利链接
查看原始专利研究 计算通信并行前沿论文
arXiv:2507.03114 - 计算通信重叠特征研究
创新发现: 重叠计算和通信平均导致 18.9% 计算减速,挑战 "始终激进重叠" 假设,提出平衡调优优于激进并发。
核心发现
该研究评估了现代 GPU 硬件在多设备模型训练期间同时处理和传输数据的影响。实验测试了数值精度、专用核心和功耗封顶等变量。结果发现: 并发工作流触发硬件冲突,增加电力需求;背靠背运行比重叠执行平均慢 10.2%,但性能惩罚因配置而异。调制时钟频率揭示了复杂的效率平衡,而非线性增益。研究挑战了 "必须始终激进重叠计算和通信" 的假设,证明平衡调优 across 硬件特性比单纯激进并发产生更好的训练效率。
论文链接
arXiv 原文arXiv:2602.09109 - LLM 分布式混合并行
创新点: 系统化研究分布式混合并行策略,包括数据并行、张量并行、流水线并行和专家并行的组合优化,重点关注计算通信重叠。
详细方案
系统化研究分布式混合并行策略,包括数据并行、张量并行、流水线并行和专家并行的组合优化。分析不同并行策略下的通信模式和带宽需求,提出最优通信调度算法以实现计算通信重叠。针对 LLM 训练特点,设计了自适应并行策略选择框架。
论文链接
HTML 版本AI 并行计算框架与优化综述 (ScienceDirect 2026)
创新点: 系统性审查并行计算框架和优化技术,涵盖分布式训练、推理加速、内存管理和通信优化的最新进展。
综述内容
系统性审查并行计算框架和优化技术,涵盖分布式训练、推理加速、内存管理和通信优化。对比分析 PyTorch DDP、FSDP、DeepSpeed、Megatron-LM 等框架的通信效率。总结计算通信重叠的最佳实践和硬件协同设计趋势。
论文链接
ScienceDirectMoE 模型加速技术综述 (Tsinghua Sci & Tech 2025)
创新点: 系统分析 MoE 模型加速技术,包括专家并行通信优化、动态路由、负载平衡和 All-to-All 通信瓶颈缓解。
综述内容
系统分析 MoE 模型加速技术,重点关注专家并行通信优化。分析动态路由算法、负载平衡策略和 All-to-All 通信瓶颈缓解方案。对比华为 Pangu Ultra、阿里、百度等公司的 MoE 通信优化方案。
论文链接
SciOpen节点内 GPU 互连技术综述 (MDPI 2024)
创新点: 全面综述 NVLink、UALink、PCIe、CXL 等节点内 GPU 互连技术,对比带宽、延迟、功耗和可扩展性。
综述内容
全面综述节点内 GPU 互连技术,包括 NVLink (900GB/s)、UALink (800GB/s)、PCIe 5.0/6.0、CXL 3.0/4.0。对比分析带宽、延迟、功耗和可扩展性。讨论 UALink 作为新兴开放标准在打破 NVLink 垄断方面的潜力。
论文链接
MDPI互连技术对比矩阵
| 技术维度 | NVIDIA | AMD | Intel | 华为 |
|---|---|---|---|---|
| 节点内互连 | NVLink 5.0 900GB/s | Infinity Fabric UALink 200G | CXL 4.0 512GB/s (x16) | 灵衢 (Lingqu) 全对等互联 |
| 集群互连 | NVSwitch 72 GPU Kyber CPO | UALoE72 (72 GPU) UAL256 (256 GPU) | Ultra Ethernet libfabric API | 384 芯片集群 8192 卡 SuperPod |
| 集合通信库 | NCCL GPUDirect RDMA | RCCL (ROCm 7.0) ROC_SHMEM | oneCCL GPU-Initiated NIC | HCCL NB 2.0 融合算子 |
| 计算通信重叠 | 优秀 GDRCopy + 硬件调度 | 良好 RCCL 异步原语 | 良好 GPU-Initiated NIC | 优秀 信号驱动 Tile-wise |
| MMU/地址转换 | 分层 MMU LATPC 预取 | - | CXL 事务转换 专利布局 | - |
| 内存池化 | Fabric Attached Memory 748GB 相干 | HBM 支持 UALink 共享 | CXL 4.0 100TB+ 200-500ns | 资源池化 解耦 KV cache |
| 开放标准参与 | 封闭生态 NVLink/IB 专有 | UALink 主导 开放联盟 | UALink + UEC CXL 主导 | 2028 支持 业界标准协议 |
国内公司通信优化对比
| 技术方案 | 华为 | 阿里 | 百度 | 寒武纪 |
|---|---|---|---|---|
| 计算通信重叠 | 信号驱动 Tile-wise 重叠 | 双通道分离 参数存储并行 | 部分传输协议 降低通信量 | 协程睡眠/唤醒 零切换开销 |
| MoE 通信 | 融合算子 微批调度 | 自适应掩盖 | 张量并行分段 混合通信框架 | - |
| 集合通信 | HCCL NB 2.0 预缓存指针 | 双通道分离 梯度/参数分路 | 门控动态路由 | MLU-Link 原语序列调度 |
| 超节点规模 | 8192 卡 (2027: 百万卡) | - | - | - |
专利分布统计
技术趋势分析
开放标准加速替代
UALink (AMD/Intel/Google/Meta) 和 Ultra Ethernet 联盟挑战 NVLink/InfiniBand 垄断。华为 2028 年规划支持业界标准协议,开放互连标准将成为主流。
计算通信重叠范式转变
arXiv:2507.03114 研究挑战 "始终激进重叠" 假设,证明平衡调优优于激进并发。华为信号驱动 Tile-wise 重叠和阿里双通道分离代表硬件协同优化方向。
MoE 通信优化白热化
华为 Pangu Ultra (6000 NPU)、CloudMatrix384 融合算子、百度张量并行 MoE、阿里双通道通信,各家竞相优化 All-to-All 通信瓶颈,融合算子+微批调度成主流方案。
短期趋势 (2026-2027)
- NVIDIA Vera Rubin 量产,7 芯片全栈平台部署
- AMD MI350X/MI400 UALoE72 超节点商用
- CXL 4.0 内存池化进入数据中心 (100TB+)
- 华为 Ascend 950PR/DT 量产,灵衢超节点 8192 卡部署
- MoE 融合算子成为 LLM 推理标配
- 计算通信重叠从软件优化转向硬件协同设计
- 共封装光学 (CPO) 在 NVIDIA Feynman 架构首次商用
- GPU-Initiated NIC 从专利走向产品 (Intel/AMD)
中期趋势 (2027-2028)
- Ultra Ethernet 替代 InfiniBand 成为 AI 集群主流网络
- UALink 400G 变体发布,支持更高带宽互连
- 华为百万卡超节点集群实现,2028 支持标准协议
- AMD MI500 UAL256 实现 256 GPU 超节点
- NVIDIA Feynman 架构 + LP40 LPU 量产
- CXL 内存池化从根本上改变 AI 集群资源分配
- 异构加速器 pipeline 并行标准化
- 1-bit 量化通信降低 32x 带宽需求
核心洞察
1. 开放标准对抗封闭生态进入新阶段
UALink (AMD/Intel/Google/Meta) 和 Ultra Ethernet 代表开放联盟对抗 NVLink/InfiniBand 的关键转折。华为 2028 年规划支持业界标准协议,标志着封闭生态面临更大压力。多供应商互操作性是核心驱动力。
2. 计算通信重叠需要重新思考
arXiv:2507.03114 研究表明 "始终激进重叠" 假设不成立,并发导致 18.9% 平均减速和额外能耗。华为信号驱动 Tile-wise 重叠、阿里双通道分离证明需要硬件协同的精细化调度,而非简单并发。
3. MoE 通信是最大战场
华为 Pangu Ultra (6000 NPU)、CloudMatrix384 融合算子、百度张量并行 MoE、阿里双通道通信,各家竞相优化 All-to-All 瓶颈。融合算子+微批调度成为主流方案,将通信计算一体化。
4. CXL 内存池化改变游戏规则
Intel CXL 4.0 支持 100TB+ 内存池,200-500ns 延迟,将实现内存解聚。NVIDIA Vera Rubin 748GB 相干内存和 Fabric Attached Memory 专利代表另一条路径。从根本上改变 AI 集群资源分配模式。
5. GPU-Initiated 网络成为新前沿
Intel US20240281249A1 GPU-Initiated NIC 专利、NVIDIA GDRCopy + GPUDirect RDMA、华为灵衢总线,都在推动 GPU 直接发起网络操作,绕过 CPU 干预。这是实现真正计算通信并行的关键硬件基础。