NVIDIA GPU MMU 专利详解

US20240202136A1 | US9514559B2 | US11620256B2 | LATPC 论文

核心主题
GPU 地址翻译加速与统一内存架构
4
专利/论文
硬件层
US20240202136A1
MMU 页表遍历引擎
架构层
US9514559B2
统一内存架构
缓存层
US11620256B2
缓存效率优化
算法层
LATPC 论文
TLB 预取 + MSHR 压缩

四大发明技术关系总览

四项发明从不同层面解决 GPU 地址翻译和内存管理问题,形成完整的技术栈:

GPU MMU 技术栈关系图

图 1: 四大发明技术关系图 — 从硬件层到算法层的完整地址翻译优化栈

US20240202136A1 - 硬件层

MMU 页表遍历引擎,将随机地址翻译请求转换为批量顺序访存命令,大幅提升 DRAM Row Buffer 命中率。

US9514559B2 - 架构层

统一内存架构,CPU 和 GPU 共享虚拟地址空间和页表,实现零拷贝数据共享,简化编程模型。

US11620256B2 - 缓存层

动态地址重映射技术,将频繁访问的虚拟地址映射到缓存友好的物理地址,减少 TLB Miss。

LATPC - 算法层

Locality-Aware TLB 预取 + MSHR 压缩,通过空间局部性预测预取 TLB 条目,压缩 MSHR 条目减少冲突。

原文链接

US20240202136A1 - Memory management unit and method of walking page table
US9514559B2 - Memory sharing via a unified memory architecture
US11620256B2 - Systems and methods for improving cache efficiency and utilization
LATPC 论文 - Accelerating GPU Address Translation Using Locality-Aware TLB Prefetching and MSHR Compression