揭秘Nvidia Hopper架构和H100 GPU

如题所述

Hopper架构一直是业界的热点,在NVIDIA GTC 2022大会上,NVIDIA正式发布了面向HPC和AI的新一代架构“Hopper”及其核心编号“GH100”,同时推出了基于新核心的加速计算卡“H100”和AI计算系统“DGX H100”。

Hopper架构的核心是H100 GPU,采用的是TSMC 4nm工艺,而且是定制版,CoWoS 2.5D晶圆级封装,单芯片设计,集成多达800亿个晶体管,被誉为世界上最先进的芯片。在性能方面,H100的计算能力是A100的3倍,而FP8的计算能力是A100的6倍。

H100 GPU带宽为3 TB/s的HBM3内存,是老款A100的1.5倍。据爆料,完整版有8组GPC、72组TPC、144组SM,而每组SM有128个FP32 CUDA核心,总计1843个。显存支持6颗HBM3或者HBM2e,控制器是12组512-bit,总计位宽6144-bit。Tensor张量核心已经是第4代,共有576个,另有60MB二级缓存。扩展互连支持PCIe 5.0、NVLink第4代,后者带宽提升至900GB/s,7倍于PCIe 5.0,相比A100也多了一半,整卡对外总带宽4.9TB/s。

H100 GPU在每个工作负载中实现出色性能、可扩展性和安全性。使用NVIDIA NVLink Switch系统,可连接多达256个H100来加速百亿亿级工作负载,另外可通过专用的Transformer引擎来处理万亿参数语言模型。与上一代产品相比,H100的综合技术创新可以将大型语言模型的速度提高30倍,从而提供业界领先的对话式AI。

此外,H100 GPU还提供高达9倍的AI训练速度,适用于多专家模型。结合第四代NVlink、NVLINK Switch系统、PCIe 5.0以及NVIDIA Magnum IO软件,为小型企业到大规模统一GPU集群提供高效的可扩展性。

H100 GPU还具备实时深度学习推理能力,其多项先进技术可将推理速度提高30倍,并提供超低的延迟。第四代Tensor Core可加速所有精度,Transformer引擎可结合使用FP8和FP16精度,减少内存占用并提高性能。

H100 GPU还适用于百亿亿次级高性能计算,其全新突破性AI性能进一步加强了HPC+AI的力量,加速科学家和研究人员的探索,让他们全身心投入工作,解决世界面临的重大挑战。

H100计算卡采用PCIe 5.0、SXM两种形态,其中后者功耗高达700W,相比A100多了整整300W。显存只用了五颗,最新一代HBM3,容量80GB,位宽5120-bit,带宽高达3TB/s,相比A100多了一半。

DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器,总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。性能方面,AI算力32PFlops,浮点算力FP64 480TFlops,FP16 1.6PFlops,FP8 3.2PFlops,分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。

同时配备Connect TX-7网络互连芯片,台积电7nm工艺,800亿个晶体管,400G GPUDirect吞吐量,400G加密加速,4.05亿/秒信息率。

NVIDIA H100 CNX融合加速器将Hopper Tensor Core GPU的强大功能与Connect TX-7智能网卡(SmartNIC)的先进网络功能融合到一个独特平台上,为GPU驱动的输入/输出(IO)密集型工作负载提供出色的性能。

DGX H100是最小的计算单元,为了扩展,NVIDIA还设计了全新的NVLink Switch互连系统,可以连接最多32个节点,也就是256颗H100芯片,称之为“DGX POD”。

Grace CPU + Hopper GPU架构专为万亿字节级加速计算而构建,可为大型AI和HPC提供10倍的性能。NVIDIA Grace CPU利用Arm架构的灵活性来创建CPU和服务器架构,Hopper GPU与Grace CPU搭配,使用NVIDIA超快速的芯片间互连技术,可提供900GB/s的带宽。

NVIDIA Grace Hopper超级芯片结合了Grace和Hopper架构,使用NVIDIA NVLink-C2C技术为加速AI和HPC应用提供CPU+GPU一致性内存模型。NVIDIA Grace CPU超级芯片通过NVLink-C2C技术带来144个Arm v9核心以及1 TB/s内存带宽。

第四代NVIDIA NVLink-C2C互连技术可在NVIDIA Grace CPU和NVIDIA GPU之间提供900 GB/s的双向带宽,此项互连可提供统一、缓存一致性的内存地址空间,后者将系统和HBM GPU显存结合在一起,能够简化可编程性。

NVIDIA Grace CPU是率先通过纠错码(ECC)等机制,利用具有服务器级可靠性的LPDDR5x内存来满足数据中心需求的服务器CPU,其内存带宽为当今常规服务器内存的2倍,能效更是高达10倍。

NVIDIA Grace CPU集成新一代Arm v9核心,以节能高效的设计提供高性能,让科学家和研究人员能够更轻松地完成他们的毕生事业。
温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

大家正在搜

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网