Bian Sun, Zhenjian Wang, Orvill de la Torre, Zirui Wang

When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation

Bian Sun, Zhenjian Wang, Orvill de la Torre, Zirui Wang / April 1, 2026

arXiv:2603.00314v2 Announce Type: replace
Abstract: As Large Language Models (LLMs) are increasingly integrated into healthcare to address complex inquiries, ensuring their reliability remains a critical challenge. Recent studies have highlighted that…

Author name: Bian Sun, Zhenjian Wang, Orvill de la Torre, Zirui Wang

When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation