Yinzhu Chen, Abdine Maiga, Hossein A. Rahmani, Emine Yilmaz

Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems

Yinzhu Chen, Abdine Maiga, Hossein A. Rahmani, Emine Yilmaz / May 14, 2026

arXiv:2601.15161v2 Announce Type: replace-cross
Abstract: Large Language Models (LLMs) are increasingly used for clinical decision support, where hallucinations and unsafe suggestions may pose direct risks to patient safety. These risks are hard to as…

Author name: Yinzhu Chen, Abdine Maiga, Hossein A. Rahmani, Emine Yilmaz

Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems