Zhenyun Yin, Shujie Wang, Xuhong Wang, Xingjun Ma, Yinchun Wang

Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints

Zhenyun Yin, Shujie Wang, Xuhong Wang, Xingjun Ma, Yinchun Wang / April 20, 2026

arXiv:2507.16727v3 Announce Type: replace
Abstract: Improving the reliability of large language models (LLMs) is critical for deploying them in real-world scenarios. In this paper, we propose \textbf{Deliberative Searcher}, the first framework to inte…

Author name: Zhenyun Yin, Shujie Wang, Xuhong Wang, Xingjun Ma, Yinchun Wang

Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints