Shengzhi Li, Jiarun Chen, Karun Sharma, Jiaqi Su, Shichao Pei

PushupBench: Your VLM is not good at counting pushups

Shengzhi Li, Jiarun Chen, Karun Sharma, Jiaqi Su, Shichao Pei / April 28, 2026

arXiv:2604.23407v1 Announce Type: cross
Abstract: Large vision-language models (VLMs) can recognize \textit{what} happens in video but fail to count \textit{how many} times. We introduce \textbf{PushupBench}, 446 long-form clips (avg. 36.7s) for evalu…

Author name: Shengzhi Li, Jiarun Chen, Karun Sharma, Jiaqi Su, Shichao Pei

PushupBench: Your VLM is not good at counting pushups