Fan Cui, Hongyuan Hou, Zizhang Luo, Chenyun Yin, Yun Liang

HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks

Fan Cui, Hongyuan Hou, Zizhang Luo, Chenyun Yin, Yun Liang / April 24, 2026

arXiv:2604.14709v2 Announce Type: replace
Abstract: Existing benchmarks for hardware design primarily evaluate Large Language Models (LLMs) on isolated, component-level tasks such as generating HDL modules from specifications, leaving repository-scale…

Author name: Fan Cui, Hongyuan Hou, Zizhang Luo, Chenyun Yin, Yun Liang

HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks