/u/chain-77 - Provide.ai

Gemma 4 26B Hits 600 Tok/s on One RTX 5090

/u/chain-77 / May 8, 2026

I ran a benchmark to see how much DFlash speculative decoding actually helps in vLLM. Setup: GPU: RTX 5090, 32GB VRAM vLLM: 0.19.2rc1 Main model: cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit Draft model: z-lab/gemma-4-26B-A4B-it-DFlash Workload: random datase…

Author name: /u/chain-77

Gemma 4 26B Hits 600 Tok/s on One RTX 5090