Hubert M. Pysklo, Artem Zhuravel, Patrick D. Watson

Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation

Hubert M. Pysklo, Artem Zhuravel, Patrick D. Watson / March 26, 2026

arXiv:2602.11224v2 Announce Type: replace-cross
Abstract: We present Agent-Diff, a novel benchmarking framework for evaluating agentic Large Language Models (LLMs) on real-world productivity software API tasks via code execution. Agentic LLM performan…

Author name: Hubert M. Pysklo, Artem Zhuravel, Patrick D. Watson

Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation