Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey

Robust Reasoning Benchmark

Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey / April 13, 2026

arXiv:2604.08571v1 Announce Type: new
Abstract: While Large Language Models (LLMs) achieve high performance on standard mathematical benchmarks, their underlying reasoning processes remain highly overfit to standard textual formatting. We propose a pe…

Author name: Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey

Robust Reasoning Benchmark