/u/coder543 - Provide.ai

Drastically improve prompt processing speed for –n-cpu-moe partially offloaded models

/u/coder543 / May 12, 2026

Bigger ubatch made gpt-oss-120b prompt processing much faster on my RTX 3090 I was tuning gpt-oss-120b-F16.gguf with llama.cpp on a 24 GB RTX 3090 and found that increasing the physical micro-batch size (-ub) can massively improve prompt processi…

Author name: /u/coder543

Drastically improve prompt processing speed for –n-cpu-moe partially offloaded models