Gaurav Srivastava, Aafiya Hussain, Sriram Srinivasan, Xuan Wang

Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models

Gaurav Srivastava, Aafiya Hussain, Sriram Srinivasan, Xuan Wang / April 24, 2026

arXiv:2507.04023v3 Announce Type: replace
Abstract: Large language models (LLMs) achieve impressive performance on complex mathematical benchmarks yet sometimes fail on basic math reasoning while generating unnecessarily verbose responses. In this pap…

Author name: Gaurav Srivastava, Aafiya Hussain, Sriram Srinivasan, Xuan Wang

Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models