滴滴云A100 GPU裸金属服务器性能及硬件参数详解

滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器产品,NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了许多新特性,在HPC、AI和数据分析领域都有更好的表现。嘻嘻伯伯来详细说下滴滴云GPU裸金属服务器A100硬件参数及性能详解:

滴滴云A100 GPU裸金属服务器

A100为NVIDIA最新发布的顶级GPU,滴滴云A100 GPU裸金属服务器(BMS)是基于NVIDIA A100 GPU推出的公有云裸金属服务器。NVIDIA A100 Tensor Core GPU基于最新的Ampere架构,相比上一代NVIDIA Tesla V100 GPU增加了了许多新特性,在HPC、AI和数据分析领域都有更好的表现。

滴滴云GPU服务器使用AI大师码1717购买GPU等产品享9折优惠。

滴滴云基于 A100 GPU 的产品包括裸金属服务器(BMS)、透传性 GPU 云服务器和 vGPU 云服务器产品,可用于深度学习训练/推理、视频处理、科学计算、图形图像处理等场景。目前基于 A100 GPU 的裸金属服务器产品开放测试,欢迎企业用户垂询。

A100 搭载了革命性的多实例 GPU(Multi-instance GPU 或 MIG)虚拟化与 GPU 切割能力,对云服务供应商(CSPs)更加友好。当配置为 MIG 运行状态时,A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率,无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。

A100 带有性能强劲的第三代 Tensor Core,支持更为丰富的 DL 和 HPC 数据类型,同时具有比 V100 更高的计算吞吐。 A100 新的稀疏(Sparsity)特性能够进一步让计算吞吐翻倍。新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算,比 V100 FP32 FMA 操作快10倍,稀疏优化(sparse)下可以达到 20 倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍,稀疏优化后达 5 倍。新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8,INT4 和 INT1 的加速为 DL 推理提供了全面支持,A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中,A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。

下图为A100 GPU支持的各种浮点数据类型位宽表示:

A100 GPU支持的各种浮点数据类型位宽
A100 GPU支持的各种浮点数据类型位宽

A100 硬件参数与前代GPU对比

板卡名 Tesla V100 SXM2 RTX 2080 Ti Quadro RTX 6000 Tesla A100 SXM4
GPU 型号 GV100 TU102 TU102 GA100
GPU 工艺 TSMC 12nm TSMC 12nm TSMC 12nm TSMC 7nm
CUDA 架构 Volta(SM_70) Turing (SM_75) Turing (SM_75) Ampere(SM_80)
SM 数目 80 68 72 108
SP 数目 5120 4352 (=68 * 64) 4608 (=72 * 64) 6912 (=108 * 64)
GPU 时钟频率 1.53 GHz 1.545 GHz* 1.77 GHz 1.41 GHz
ROPs 128 88 96 160
TMUs 320 272 288 432
Tensor Cores 640 544 576 432
RT Cores N/A 68 72 N/A
显存容量 32 GB HBM2 11 GB GDDR6 24 GB GDDR6 40 GB HBM2E
显存位宽 4096 bits 352 bits 384 bits 5120 bits
显存频率 0.876 GHz(x2) 1.75 GHz(x8) 1.75 GHz(x8) 1.215 GHz(x2)
显存带宽 897 GB/s 616 GB/s** 672 GB/s 1555 GB/s
功耗 250 W 250 W 260 W 400 W

A100与前代GPU CUDA Core/Tensor Core计算能力对比(单位:每时钟周期每 SM 乘累加次数):

A100 与前代 GPU CUDA Core/Tensor Core 计算能力对比
A100 与前代 GPU CUDA Core/Tensor Core 计算能力对比

根据上述表格中的数字可以计算出A100峰值计算能力:

计算类型 峰值吞吐(TFLOPS/TOPS)
FP64, CUDA Core 9.746(= 108 x 32 x 1410MHz x 2)
FP64, Tensor Core 19.49(= 108 x 64 x 1410MHz x 2)
FP32, CUDA Core 19.49(= 108 x 64 x 1410MHz x 2)
TF32, Tensor Core 155.9(= 108 x 512 x 1410MHz x 2)
TF32, Tensor Core, Sparse 311.87(= 108 x 1024 x 1410MHz x 2)
FP16, CUDA Core 77.96(= 108 x 256 x 1410MHz x 2)
FP16, Tensor Core 311.87(= 108 x 1024 x 1410MHz x 2)
FP16, Tensor Core, Sparse 623.74(= 108 x 2048 x 1410MHz x 2)
INT8, CUDA Core 77.96(= 108 x 256 x 1410MHz x 2)
INT8, Tensor Core 623.74(= 108 x 2048 x 1410MHz x 2)
INT8, Tensor Core, Sparse 1247.5(= 108 x 4096 x 1410MHz x 2)
INT4, Tensor Core 1247.5(= 108 x 4096 x 1410MHz x 2)
INT4, Tensor Core, Sparse 2495(= 108 x 8192 x 1410MHz x 2)
INT1, Tensor Core 4990(= 108 x 16384 x 1410MHz x 2)
滴滴云GPU服务器:

官方页面:滴滴云服务器官方页面详解

原创文章,作者:阿里云,如若转载,请注明出处:https://www.xixibobo.com/didiyun/a100gpu/