揭秘Nvidia Hopper架构和H100 GPU

如题所述

推荐答案 2024-08-12

Hopper架构一直是业界的热点，在NVIDIA GTC 2022大会上，NVIDIA正式发布了面向HPC和AI的新一代架构“Hopper”及其核心编号“GH100”，同时推出了基于新核心的加速计算卡“H100”和AI计算系统“DGX H100”。

Hopper架构的核心是H100 GPU，采用的是TSMC 4nm工艺，而且是定制版，CoWoS 2.5D晶圆级封装，单芯片设计，集成多达800亿个晶体管，被誉为世界上最先进的芯片。在性能方面，H100的计算能力是A100的3倍，而FP8的计算能力是A100的6倍。

H100 GPU带宽为3 TB/s的HBM3内存，是老款A100的1.5倍。据爆料，完整版有8组GPC、72组TPC、144组SM，而每组SM有128个FP32 CUDA核心，总计1843个。显存支持6颗HBM3或者HBM2e，控制器是12组512-bit，总计位宽6144-bit。Tensor张量核心已经是第4代，共有576个，另有60MB二级缓存。扩展互连支持PCIe 5.0、NVLink第4代，后者带宽提升至900GB/s，7倍于PCIe 5.0，相比A100也多了一半，整卡对外总带宽4.9TB/s。

H100 GPU在每个工作负载中实现出色性能、可扩展性和安全性。使用NVIDIA NVLink Switch系统，可连接多达256个H100来加速百亿亿级工作负载，另外可通过专用的Transformer引擎来处理万亿参数语言模型。与上一代产品相比，H100的综合技术创新可以将大型语言模型的速度提高30倍，从而提供业界领先的对话式AI。

此外，H100 GPU还提供高达9倍的AI训练速度，适用于多专家模型。结合第四代NVlink、NVLINK Switch系统、PCIe 5.0以及NVIDIA Magnum IO软件，为小型企业到大规模统一GPU集群提供高效的可扩展性。

H100 GPU还具备实时深度学习推理能力，其多项先进技术可将推理速度提高30倍，并提供超低的延迟。第四代Tensor Core可加速所有精度，Transformer引擎可结合使用FP8和FP16精度，减少内存占用并提高性能。

H100 GPU还适用于百亿亿次级高性能计算，其全新突破性AI性能进一步加强了HPC+AI的力量，加速科学家和研究人员的探索，让他们全身心投入工作，解决世界面临的重大挑战。

H100计算卡采用PCIe 5.0、SXM两种形态，其中后者功耗高达700W，相比A100多了整整300W。显存只用了五颗，最新一代HBM3，容量80GB，位宽5120-bit，带宽高达3TB/s，相比A100多了一半。

DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器，总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。性能方面，AI算力32PFlops，浮点算力FP64 480TFlops，FP16 1.6PFlops，FP8 3.2PFlops，分别是上代DGX A100的3倍、3倍、6倍，而且新增支持网络内计算，性能3.6TFlops。

同时配备Connect TX-7网络互连芯片，台积电7nm工艺，800亿个晶体管，400G GPUDirect吞吐量，400G加密加速，4.05亿/秒信息率。

NVIDIA H100 CNX融合加速器将Hopper Tensor Core GPU的强大功能与Connect TX-7智能网卡（SmartNIC）的先进网络功能融合到一个独特平台上，为GPU驱动的输入/输出（IO）密集型工作负载提供出色的性能。

DGX H100是最小的计算单元，为了扩展，NVIDIA还设计了全新的NVLink Switch互连系统，可以连接最多32个节点，也就是256颗H100芯片，称之为“DGX POD”。

Grace CPU + Hopper GPU架构专为万亿字节级加速计算而构建，可为大型AI和HPC提供10倍的性能。NVIDIA Grace CPU利用Arm架构的灵活性来创建CPU和服务器架构，Hopper GPU与Grace CPU搭配，使用NVIDIA超快速的芯片间互连技术，可提供900GB/s的带宽。

NVIDIA Grace Hopper超级芯片结合了Grace和Hopper架构，使用NVIDIA NVLink-C2C技术为加速AI和HPC应用提供CPU+GPU一致性内存模型。NVIDIA Grace CPU超级芯片通过NVLink-C2C技术带来144个Arm v9核心以及1 TB/s内存带宽。

第四代NVIDIA NVLink-C2C互连技术可在NVIDIA Grace CPU和NVIDIA GPU之间提供900 GB/s的双向带宽，此项互连可提供统一、缓存一致性的内存地址空间，后者将系统和HBM GPU显存结合在一起，能够简化可编程性。

NVIDIA Grace CPU是率先通过纠错码（ECC）等机制，利用具有服务器级可靠性的LPDDR5x内存来满足数据中心需求的服务器CPU，其内存带宽为当今常规服务器内存的2倍，能效更是高达10倍。

NVIDIA Grace CPU集成新一代Arm v9核心，以节能高效的设计提供高性能，让科学家和研究人员能够更轻松地完成他们的毕生事业。

温馨提示：答案为网友推荐，仅供参考

当前网址：https://verywind.cn/ee/xrv7y3f3vev2re32vx.html

你可能感兴趣的内容

大家正在搜

非常风气网www.verywind.cn

揭秘Nvidia Hopper架构和H100 GPU

相关了解……

你可能感兴趣的内容