Aaditya Khanal, Yangyang Tao, Junxiu Zhou

Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents

Aaditya Khanal, Yangyang Tao, Junxiu Zhou / April 1, 2026

arXiv:2603.29231v1 Announce Type: new
Abstract: Existing benchmarks measure capability — whether a model succeeds on a single attempt — but production deployments
require reliability — consistent success across repeated attempts on tasks of varyi…

Author name: Aaditya Khanal, Yangyang Tao, Junxiu Zhou

Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents