Tianyi Huang, Nathan Huang, Justin Tang, Wenqian Chen, Elsa Fan

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

Tianyi Huang, Nathan Huang, Justin Tang, Wenqian Chen, Elsa Fan / May 6, 2026

arXiv:2603.20562v2 Announce Type: replace-cross
Abstract: Large language models (LLMs) are now widely used as judges, yet their decisions can change under presentation choices that should be irrelevant. We study one such source of instability: candida…

Author name: Tianyi Huang, Nathan Huang, Justin Tang, Wenqian Chen, Elsa Fan

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation