Hanyu Zhou, Chuanhao Ma, Gim Hee Lee

TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation

Hanyu Zhou, Chuanhao Ma, Gim Hee Lee / May 8, 2026

arXiv:2605.05714v1 Announce Type: cross
Abstract: Vision-language-action (VLA) models perform well on training-seen robotic tasks but struggle to generalize to unseen scenes and objects. A key limitation lies in their implicit visual representations, …

Author name: Hanyu Zhou, Chuanhao Ma, Gim Hee Lee

TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation