Author name: Delip Rao, Chris Callison-Burch

Autorubric: Unifying Rubric-based LLM Evaluation

Delip Rao, Chris Callison-Burch / April 7, 2026

arXiv:2603.00077v2 Announce Type: replace
Abstract: Techniques for reliable rubric-based LLM evaluation — ensemble judging, bias mitigation, few-shot calibration — are scattered across papers with inconsistent terminology and partial implementations…

cs.CL, cs.DL

BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation

Delip Rao, Chris Callison-Burch / April 6, 2026

arXiv:2604.03159v1 Announce Type: cross
Abstract: Large language models with web search are increasingly used in scientific publishing agents, yet they still produce BibTeX entries with pervasive field-level errors. Prior evaluations tested base model…

cs.CL

What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis

Delip Rao, Chris Callison-Burch / April 4, 2026

arXiv:2604.01657v1 Announce Type: new
Abstract: Despite rapid progress in claim verification, we lack a systematic understanding of what reasoning these benchmarks actually exercise. We generate structured reasoning traces for 24K claim-verification e…