最先进单插槽专业绘图解决方案
Quadro RTX 4000将NVIDIA Turing GPU架构与最新的内存和显示技术相结合,以单插槽PCI-e结构提供最佳性能和功能。 享受更大的流畅性与如照片真实感渲染,体验启用AI-应用更快的性能和创建详细的,栩栩如生的虚拟现实体验。更具成本效益和更加广泛与弹性的工作站机箱配置。
性能特点
Turing GPU 架构 Quadro RTX 4000 GPU 由最先进的 12nm FFN (FinFET NVIDIA) 高性能制程制造,为 NVIDIA 订做,包含 2304 个 CUDA 核心,为专业桌面上针对 HPC,AI,VR 和绘图工作负载最强大的运算平台。Turing GPU 架构实现了自 NVIDIA 在 2001 年发明可程序化着色器以来,计算机实时绘图成像最大的跃进 。它在 545 平方公厘的尺寸上整合了 136 亿个晶体管,可提供超过 7.1 TFLOPS 单精度(FP32),14.2 TFLOPS 半精度 (FP16),28.5 TOPS 整数精度 (INT8),以及 57.0 TFLOPs Tensor运算能力,完美支持各种计算密集的工作附载。 | RT 核心 新的硬体光线追踪技术让 GPU 首次实现即时产生电影品质般逼真的对象和环境,包括精确的物理阴影,反射,和折射。即时光线追踪引擎与 NVIDIA OptiX,Microsoft DXR,和 Vulkan API 配合,提供远超出传统成像技术所能达到的真实程度。RT 核心使用通过像素投射少量光线来加速边界体积层次 (BVH) 遍历和光线投射功能。 | |
加强的Tensor核心 新的混合精度核心为了深度学习矩阵运算而设计,训练时可提供前一代 8 倍的 TFLOPS。Quadro RTX 4000 利用 288 个Tensor核心,每个Tensor核心每个频率可执行 64 个浮点融合乘加 (FMA) 运算,每个 SM 每个频率可执行总共 1024 个独立的浮点运算。除了支持 FP16/FP32 矩阵运算,新的Tensor核心针对矩阵运算增加了 INT8 (每个频率 2048 个整数运算) 和实验性的 INT4 和 INT1 (二进制) 精度模式。 | 先进的着色技术 网格着色:基于运算的几何管线,以加速几何复杂模型和场景的几何处理和剔除。网格着色对于受限于几何能力的工作负载提供高达两倍的效能提升。 可变速率着色 (VRS):根据场景内容,注视方向,和动作来改变着色速率,以提高成像效率。可变速率着色提供相似的影像质量,但着色的像素减少 50%。 材质空间着色:对象/材质空间着色可提高像素着色繁重的工作负载效能,如景深和动态模糊。材质空间着色对于像素着色繁重的 VR 工作负载,重复使用预先着色材质像素,以提高吞吐量,增加逼真程度。 | |
高效能 GDDR6 记忆体 Quadro RTX 4000 采用 Turing 的高度优化 8GB GDDR6 内存子系统,具备业界最快的绘图内存 (416 GB/s 峰值带宽),为专门处理大型数据集并对延迟敏感的应用程序理想平台。Quadro RTX 4000 提供比前一代增加 70% 的内存带宽。 | 单一指令,多线程 (SIMT) 新的独立线程排程功能可在小型工作间共享资源,实现平行线程之间更精细的同步和合作。 | |
先进串流多处理器 (SM) 架构 结合共享内存和 L1 快取以大幅提高效能,并简化程序和减少所需的调整来得到最佳的应用程序效能。每组 SM 包含 96 KB L1/共享内存,可根据运算或绘图工作负载,配置各种容量。对于运算工作,最多可分配 64 KB 到 L1 快取和共享内存,而绘图工作负载最多可分配 48 KB 到共享内存;32 KB L1 和 16 KB 材质单元。 结合 L1 快取和共享内存可降低延迟并提供更高带宽。 | 混合精度运算 16 位浮点精度运算,可将吞吐量加倍并降低储存需求,实现更大型神经网络的训练和部署。Turing SM 具备独立的平行整数和浮点资料路径,对于运算和地址计算混合的工作负载更有效率。 | |
NVIDIA GPU BOOST 4.0 自动最大化应用程序效能,而不会超出卡的功耗和散热范围。允许应用程序在更高温下停留在加速频率状态更久,才会再降到第二温度设定的基本频率。此功能需要软件应用程序来启动,而不是独立的程序。 | 图形抢占 像素等级抢占提供更细微的控制,对时间相关的工作支持更佳,例如 VR 动态追踪。 | |
计算抢占 指令等级抢占提供对计算工作更精细的控制,以避免长时间执行的应用程序独占系统资源或超时。 | H.264 和 HEVC 编码/解码引擎 两个专属的 H.264 和 HEVC 编码引擎以及独立于 3D/运算管线之外的解码引擎可提供比即时更快的转档,影片编辑,和其他编码应用程序效能。 |
CUDA 平行处理核心 | 2304 |
NVIDIA Tensor 核心 | 288 |
NVIDIA RT 核心 | 36 |
内存 | 8 GB GDDR6 |
RTX-OPS | 43T |
光线投射 | 8 Giga Rays/Sec |
最高单精度 (FP32) 效能 | 7.1 TFLOPS |
最高单精度 (FP16) 效能 | 14.2 TFLOPS |
最高整数运算 (INT8) 效能 | 28.5 TOPS |
深度学习 TeraFLOPS1 | 57.0 TFLOPS |
内存接口 | 256-bit |
内存带宽 | 最高416 GB/s |
最大功耗 | 160 W |
总线 | PCI Express 3.0 x 16 |
显示接头 | DP 1.4 (3) + VirtualLink (1) |
板型 | 4.4” 高 x 9.5” 长 |
重量 | 479 g |
散热方案 | 主动式 |
NVIDIA® 3D Vision® 和 3D Vision Pro | 由 3 pin mini DIN 支援 |
框页锁(Frame Lock) | 相容 (与 Quadro Sync II) |
NVLink 互连技术 | 无 |
外部电源 | 8-pin PCIe |