Wenda Xu, Vil\'em Zouhar, Parker Riley, Mara Finkelstein, Markus Freitag, Daniel Deutsch

Searching the Internet for Challenging Benchmarks at Scale

Wenda Xu, Vil\'em Zouhar, Parker Riley, Mara Finkelstein, Markus Freitag, Daniel Deutsch / May 8, 2026

arXiv:2509.26619v2 Announce Type: replace
Abstract: Many static benchmarks are beginning to saturate: as models rapidly improve, they achieve near-perfect scores on fixed test sets, leaving little headroom to expose genuine model weaknesses — and eve…

Author name: Wenda Xu, Vil\'em Zouhar, Parker Riley, Mara Finkelstein, Markus Freitag, Daniel Deutsch

Searching the Internet for Challenging Benchmarks at Scale