当今,要求严苛的 AI 开发者工作负载通常需要比台式电脑所能提供的内存更多,也往往需要访问笔记本电脑或 PC 所不具备的软件,这使得工作不得不转向云端或数据中心。
NVIDIA DGX Spark 可作为云实例和数据中心队列的替代方案。这款基于 Blackwell 架构的紧凑型超级计算机,具备每秒 1 千万亿次的 FP4 AI 计算性能、128 GB 的一致性统一系统内存,以及每秒 273 GB 的内存带宽,并预装了 NVIDIA AI 软件堆栈。借助 DGX Spark,您无需依赖云端或排队使用数据中心资源,即可在本地高效处理大规模计算密集型任务。
微调 DGX Spark 上的工作负载
调整预训练模型是 AI 开发者的一项常见任务。为展示 DGX Spark 在此类工作负载中的性能表现,下面采用了三种不同的方法进行实验:全量微调、LoRA 和 QLoRA。
在对 Llama 3.2 B 模型进行完整微调后,实现了每秒 82739.2 tokens 的处理速度。在 DGX Spark 上,采用 LoRA 方法对 Llama 3.1 8B 模型进行调整时,达到每秒 53657.6 tokens 的处理速度。而在同一平台上,使用 QLoRA 方法对 Llama 3.3 70B 模型进行调整时,峰值性能为每秒 5079.4 tokens。
由于微调需要消耗大量显存,因此这些调优工作负载均无法在 32 GB 消费级 GPU 上运行。
Fine-tuning | ||||
模型 | 方法 | 后端 | 设置 | 峰 tokens/秒 |
Llama 3.2 3B | 完全微调 | PyTorch | 序列长度:2048 | 82739.20 |
Llama 3.1 8B | LoRA | PyTorch | 序列长度:2048 | 53657.60 |
Llama 3.3 70B | QLoRA | PyTorch | 序列长度:2048 | 5079.04 |
表 1。微调后的性能表现
DGX Spark 的图像生成功能
图像生成模型在不断提升准确性、分辨率以及运行效率。根据提示生成高分辨率图像或多张图像,不仅需要更多的内存,也增加了计算量。
DGX Spark 具备大容量 GPU 显存和强大的计算性能,能够处理更高分辨率的图像和更高精度的模型,从而提升图像质量。同时,DGX Spark 支持 FP4 数据格式,可在高分辨率下实现快速图像生成。
使用 FP4 精度的 Flux.1 12B 模型时,DGX Spark 每 2.6 秒即可生成 1K 分辨率的图像(详见下表 2)。凭借大容量系统内存,DGX Spark 能够支持 BF16 精度的 SDXL 1.0 模型运行,并实现每分钟生成七张 1K 图像的性能。
图像生成模型 | ||||
模型 | 精度 | 后端 | 设置 | 图/分钟 |
Flux.1 12B Schnell | FP4 | TensorRT | 分辨率:1024 × 1024,降噪步骤:4,批量大小:1 | 23 |
SDXL 1.0 | BF16 | TensorRT | 分辨率:1024 × 1024,降噪步骤:50,批量大小:2 | 7 |
表 2。图像生成性能对比
使用 DGX Spark 进行数据科学工作
DGX Spark 支持 NVIDIA cuML 和 cuDF 等基于 CUDA-X 的基础库。其中,NVIDIA cuML 能够在 GPU 上加速 scikit-learn 中的机器学习算法,以及 UMAP 和 HDBSCAN 等方法,且无需修改代码。
对于 UMAP 和 HDBSCAN 等计算密集型机器学习算法,DGX Spark 能够在数秒内完成 250 MB 数据集的处理。(参见下表 3。)NVIDIA cuDF 可显著加速常见的 pandas 数据分析任务,例如连接操作和字符串处理方法。在 DGX Spark 上,借助 cuDF pandas,对包含数千万条记录的数据集进行操作仅需几秒钟即可完成。
数据科学库基准测试 | |||
库 | 基准 | 数据集大小 | 时间 |
NVIDIA cuML | UMAP | 250 MB | 4 秒 |
NVIDIA cuML | HDBSCAN | 250 MB | 10 秒 |
NVIDIA cuDF pandas | 关键数据分析操作(连接、字符串方法、UDF) | 0.5 到 5 GB | 11 秒 |
表 3。数据科学领域性能表现
使用 DGX Spark 进行推理
DGX Spark 的 Blackwell GPU 支持 FP4 数据格式,特别是 NVFP4 格式,能够实现接近 FP8 的精度(仅降低 1%),从而在不牺牲准确性的前提下支持更小模型的使用。由于 FP4 的数据占用空间更小,系统性能也得以提升。表 4 提供了 DGX Spark 的推理性能数据。
DGX Spark 支持多种 4 位数据格式,包括 NVFP4 和 MXFP4,并兼容多个后端,例如 TRT-LLM、llama.cpp 和 vLLM。该系统具备 1 petaflop 的 AI 性能,可实现快速的提示处理,如表 4 所示。高效的提示处理有助于提升 token 响应速度,改善用户体验,同时加快端到端的吞吐量。
| 推理 (ISL) | OSL 2048 | 128,BS = 1 | ||||
| Model | Precision | Backend | Prompt 处理吞吐量 (tokens/sec) | token 生成吞吐量 (tokens/sec) |
NVFP4:NVIDIA Blackwell GPU 架构引入的 4 位浮点格式。 MXFP4:由开放计算项目 (OCP) 提出的 4 位浮点格式,全称为 Microscaling FP4。 ISL(输入序列长度):指输入提示词的数量(即 prefill tokens)。 OSL(输出序列长度):指模型在响应过程中生成的 token 数量(即解码 tokens)。
通过 ConnectX-7 芯片将两台 DGX Spark 连接起来,用于运行 Qwen3 235B 模型。该模型显存占用超过 120 GB(包括激活内存)。这类模型通常在大型云平台或数据中心服务器上部署,而能够在双 DGX Spark 系统上运行,表明其为开发者提供了开展实验的可能性。如表 4 最后一行所示,双 DGX Spark 上的 token 生成吞吐量达到每秒 11.73 个 token。
NVIDIA Nemotron Nano 2 模型的全新 NVFP4 版本在 DGX Spark 上同样表现出色。采用 NVFP4 版本后,您现在可实现高达 2 倍的吞吐量提升,同时保持几乎不受影响的准确度。

