Shufan Jiang, Chios Chen, Zhiyang Chen

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Shufan Jiang, Chios Chen, Zhiyang Chen / April 6, 2026

arXiv:2604.02648v1 Announce Type: cross
Abstract: The autonomous discovery of bugs remains a significant challenge in modern software development. Compared to code generation, the complexity of dynamic runtime environments makes bug discovery consider…

Author name: Shufan Jiang, Chios Chen, Zhiyang Chen

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers