Zirui He, Haiyan Zhao, Yingcong Li, Ali Payani, Mengnan du

LogitTrace: Detecting Benchmark Contamination via Layerwise Logit Trajectories

Zirui He, Haiyan Zhao, Yingcong Li, Ali Payani, Mengnan du / May 12, 2026

arXiv:2509.20909v2 Announce Type: replace
Abstract: Large language models (LLMs) are commonly evaluated on challenging benchmarks such as AIME and Math500, where benchmark contamination can make memorized solutions appear as genuine reasoning. Existin…

Author name: Zirui He, Haiyan Zhao, Yingcong Li, Ali Payani, Mengnan du

LogitTrace: Detecting Benchmark Contamination via Layerwise Logit Trajectories