带来无限可能的性能表现
NVIDIA RTX™ 4000 Ada Generation 是专业人士最强大的单插槽 GPU,与上一代产品相比,在速度和功耗方面实现巨大突破,可在桌面型工作站中处理严格要求的创意、设计和工程工作流程。 RTX 4000 利用最新一代 RT 核心、Tensor 核心和 CUDA® 核心以及 20GB 显存,使专业人士能够创造复杂的产品工程、梦幻般的城市景观和身临其境的娱乐体验。 凭借其高能效的单插槽设计,RTX 4000 可无缝融入各种工作站机箱,为专业人士提供无限潜力。
性能特点
NVIDIA Ada Lovelace 架构 NVIDIA RTX 4000 Ada Generation 是最强大的单插槽工作站 GPU,提供高性能实时光线追踪、AI 加速计算和专业图形渲染。NVIDIA Ada Lovelace 架构以 Ada Lovelace GPU 的主要 SM 增强功能为基础,强化了光线追踪操作、张量矩阵操作以及 FP32 和 INT32 操作的并行处理。 | NVIDIA CUDA 核心 与上一代 相比,基于 NVIDIA Ada Lovelace 架构的 CUDA 核心提供超过 2 倍的单精度浮点 (FP32) 吞吐量,为 3D 模型开发等图形工作流程和计算机辅助工程 (CAE)桌面仿真等计算工作负载,提供了显著的性能提升。RTX 4000 支持两个 FP32 主数据路径,使 FP32 运算峰值加倍。 | |
第三代 RT 核心 结合第三代光线追踪引擎,基于 NVIDIA Ada Lovelace 架构的 GPU 提供令人难以置信的光线追踪渲染性能。 RTX 4000 可以渲染具有物理准确的阴影、反射和折射的复杂专业模型,使用户能够实时洞察设计结果。基于 RTX 4000 的系统与利用 NVIDIA OptiX、Microsoft DXR 和 Vulkan 光线追踪等 API 的应用程序协同工作,将为真正的交互式设计工作流程提供强大的动力,以提供实时反馈,进而实现前所未有的生产力水平。 与上一代产品相比,RTX 4000 的光线追踪速度提高了 2 倍。该技术还可以加快光线追踪运动模糊的渲染速度,从而以更高的视觉精度更快地获得结果。 | 第四代 Tensor 核心 RTX 4000 专为神经网络训练和推理功能核心的深度学习矩阵运算而构建,包括增强的 Tensor Core,可加速更多数据类型,并且支持 Fine-Grained Structured Sparsity 功能,与上一代相比,张量矩阵运算可提供超过 4 倍的吞吐量。新的 Tensor Core 将加速两种新的 TF32 和 BFloat16 精度模式。 独立的浮点和整数数据路径允许使用计算和寻址计算的组合更有效地执行工作负载。 | |
第四代 PCIe RTX 4000 支持 PCI Express Gen 4,它提供的带宽是 PCIe Gen 3 的两倍,提高了 CPU 内存的数据传输速度,适用于 AI 和数据科学等数据密集型任务。 | 更高速的 GDDR6 显存 RTX 4000 采用 20GB GDDR6 显存,提供理想的图形占用空间,可处理对延迟敏感的专业应用程序中的数据集和模型并大批量处理。 | |
显存上的纠错码 (ECC) 符合关键性任务应用程序对数据完整性的严格需求,同时为工作站提供无可比拟的计算精确度和可靠性。 | 第五代NVDEC引擎 NVDEC 非常适合用于实时解码的转码和视频播放应用。硬件加速解码支持以下视频编解码器:MPEG-2,VC-1,H.264(AVCHD),H.265(HEVC),VP8,VP9,和 AV1 视频格式。 | |
第八代 NVENC引擎 NVENC 可以承担最苛刻的 4K 或 8K视频编码任务,以释放图形引擎和 CPU 进行其他运作。RTX 4000 提供比软件 x264 编码器更好的编码质量。RTX 4000 采用 AV1 视频编码,比 4K HDR 的 H.264 编码效率高 40%。AV1 将在相同的比特率带宽下提供更好的质量。 | 图形抢占 像素等级抢占提供更精细的控制,对时间相关的工作支持更佳,例如 VR 动态追踪。 | |
计算抢占 指令等级抢占提供对计算工作更精细的控制,以避免长时间执行的应用程序独占系统资源或超时。 | NVIDIA RTX IO 使用 Microsoft 新的 DirectStorage for Windows API,与传统存储 API 相比,可将基于 GPU 的无损解压缩性能提高 100 倍,CPU 利用率降低 20 倍。 RTX IO 以更高效、压缩的形式将数据从存储设备移动到 GPU,并提高 I/O 性能。 |
GPU 架构 | NVIDIA Ada Lovelace 架构 |
CUDA 并行处理核心 | 6144 |
NVIDIA Tensor 核心 | 192 |
NVIDIA RT 核心 | 48 |
单精度性能1 | 26.7 TFLOPS |
RT Core 性能1 | 61.8 TFLOPS |
Tensor 性能1 | 427.6 TFLOPS2 |
GPU 显存 | 20 GB GDDR6 支持 ECC |
显存位宽 | 160-bit |
显存带宽 | 360 GB/s |
最大功耗 | 130W |
系统接口 | PCI Express 4.0 x16 |
显示接口 | DP 1.4 (4) |
外形规格 | 4.4” H x 9.5” L 单插槽 |
产品重量 | 528g |
散热方式 | 主动式 |
NVIDIA® 3D Vision® 与 3D Vision Pro | 支持 3-pin mini DIN |
同步输出 | 支持 Quadro Sync II |
NVLink 互连技术 | 不支持 |
NVENC | NVDEC | 2x | 2x (+AV1 编码与解码) |
1基于 GPU 加速频率的峰值数据量
2使用新的稀疏性功能得到更有效率 TOPS / TFLOPS