Bjarni Haukur Bjarnason, Andr\'e Silva, Martin Monperrus

On Randomness in Agentic Evals

Bjarni Haukur Bjarnason, Andr\'e Silva, Martin Monperrus / March 26, 2026

arXiv:2602.07150v3 Announce Type: replace-cross
Abstract: Agentic systems are evaluated on benchmarks where agents interact with environments to solve tasks. Most papers report a pass@1 score computed from a single run per task, assuming this gives a …

Author name: Bjarni Haukur Bjarnason, Andr\'e Silva, Martin Monperrus

On Randomness in Agentic Evals