Discussion

강문규

Nvidia dgx sparks gb10, Asus gx10, llm, local ai

May 6

Qwen3.6 on DGX Spark: vLLM + NVFP4 + DFlash vs llama.cpp — 2x Faster at 88–104 tok/s

TL;DR — I was happily running Qwen3.6 on llama.cpp. Then I saw claims of 2× speed with vLLM + NVFP4 + DFlash. So I installed it, fought through crashes, and measured it myself. Verdict: it's real. 88–

devsnack.hashnode.dev10 min read

#nvidia #dgx-spark #dgxspark #qwen #qwen3-6 #qwen-3-6 #vllm #llamacpp #llama-cpp #nvfp4 #speculative-decoding

Responses

No responses yet.

Search Hashnode

Qwen3.6 on DGX Spark: vLLM + NVFP4 + DFlash vs llama.cpp — 2x Faster at 88–104 tok/s

Responses

Recent in Forum