Yuning Han, Yangchenchen Jin, Dylan Zhao, Jingwei Sun

CATS: Cascaded Adaptive Tree Speculation for Memory-Limited LLM Inference Acceleration

Yuning Han, Yangchenchen Jin, Dylan Zhao, Jingwei Sun / May 13, 2026

arXiv:2605.11186v1 Announce Type: new
Abstract: Auto-regressive decoding in Large Language Models (LLMs) is inherently memory-bound: every generation step requires loading the model weights and intermediate results from memory (e.g., High-Bandwidth Me…

Author name: Yuning Han, Yangchenchen Jin, Dylan Zhao, Jingwei Sun

CATS: Cascaded Adaptive Tree Speculation for Memory-Limited LLM Inference Acceleration