Xiaotian Zhou, Di Tang, Xiaofeng Wang, Xiaozhong Liu

Can We Trust a Black-box LLM? LLM Untrustworthy Boundary Detection via Bias-Diffusion and Multi-Agent Reinforcement Learning

Xiaotian Zhou, Di Tang, Xiaofeng Wang, Xiaozhong Liu / April 8, 2026

arXiv:2604.05483v1 Announce Type: new
Abstract: Large Language Models (LLMs) have shown a high capability in answering questions on a diverse range of topics. However, these models sometimes produce biased, ideologized or incorrect responses, limiting…

Author name: Xiaotian Zhou, Di Tang, Xiaofeng Wang, Xiaozhong Liu

Can We Trust a Black-box LLM? LLM Untrustworthy Boundary Detection via Bias-Diffusion and Multi-Agent Reinforcement Learning