/u/lemon07r - Provide.ai

16 GB VRAM users, what model do we like best now?

/u/lemon07r / April 9, 2026

I'm finding Qwen 3.5 27b at IQ3 quants to be quite nice, I can usually fit around 32k (this is usually enough context for me since I dont use my local models for anything like coding) without issues and get around 40+ t/s on my RTX 4080 using ik_ll…

Author name: /u/lemon07r

16 GB VRAM users, what model do we like best now?