LLM 分布式混合并行

Distributed Hybrid Parallelism for Large Language Models: Comparative Study and System Design Guide

论文信息
arXiv:2602.09109 | 2026 | 60页
arXiv
阅读原文

核心问题

随着 LLM 规模指数增长(从 BERT 110M 到 GPT-3 175B 再到万亿参数),单设备已无法承载模型训练与推理。如何组合多种并行策略(DP/TP/PP/CP/EP)在有限硬件资源下最大化 Model FLOPs Utilization (MFU)、最小化通信开销、满足内存约束,成为分布式 AI 系统的核心挑战。

论文信息
作者: Hossam Amer, Mahmoud Gharib, Atef Ibrahim, Qiang Weng, Zheng Wang, Ali Ghodsi
机构: 华为加拿大研究所
年份: 2026
核心主题
Data Parallelism Tensor Parallelism Pipeline Parallelism Context Parallelism Expert Parallelism Hybrid 3D/4D MFU Optimization Auto-Parallelism Mamba SSM Ascend NPU

论文贡献

  • 系统性综述: 全面回顾分布式混合并行策略,涵盖数据并行、模型并行、激活并行的所有变体及其组合方式
  • 理论分析: 对 GQA(Grouped Query Attention)、MLP(SwiGLU)、Mamba-2(SSD)三种核心模块进行 FLOPs、内存、通信的统一数学建模
  • 实验验证: 在 Ascend 910B NPU 集群上对 LLaMA 1B/7B 和 Mamba 1B/7B 进行 16+ 种并行配置的系统性评测
  • 设计指南: 提供从问题公式化、策略选择、SLO 权衡到框架实现的完整系统设计流程
  • 开源洞察: 对比 Megatron-LM、NeMo、DeepSpeed、MindSpeed-LLM 等主流框架的实现差异

核心评估指标

MFU

模型实际达到的 FLOPs 与硬件峰值 FLOPs 的比值。衡量计算资源利用效率的核心指标,越高越好。

核心优化目标
TTFT

推理场景下从输入到生成第一个 token 的延迟。影响用户体验的关键指标,越低越好。

推理关键指标
TPOT

推理场景下每个生成 token 的平均时间。反映解码阶段效率。

推理关键指标
Throughput

训练吞吐量(每秒处理 token 数)和推理吞吐量(每秒服务请求数)。直接影响训练成本和推理服务能力。

核心性能指标

问题公式化

给定模型架构 M、硬件集群 H、全局 batch size B、序列长度 S,寻找最优并行配置 P = (DP, PP, TP, CP, EP) 使得:

maximize: MFU(P, M, H, B, S)
subject to: memory_per_device(P, M, B, S) <= device_memory_capacity
subject to: latency(P, M, B, S) <= SLO_target (for inference)
subject to: DP * PP * TP * CP * EP = world_size (total devices)

这是一个组合优化问题,搜索空间随模型层数和并行维度指数增长。例如 80 层 Transformer 可产生约 10^125 种配置组合。