Jason Kong, Nilesh Prasad Pandey, Flavio Ponzina, Tajana Rosing

A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models

Jason Kong, Nilesh Prasad Pandey, Flavio Ponzina, Tajana Rosing / April 16, 2026

arXiv:2604.13440v1 Announce Type: cross
Abstract: Deploying Large Language Models (LLMs) on edge devices faces severe computational and memory constraints, limiting real-time processing and on-device intelligence. Hybrid architectures combining Struct…

Author name: Jason Kong, Nilesh Prasad Pandey, Flavio Ponzina, Tajana Rosing

A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models