Yun Li, Yidu Zhang, Simon Thompson, Ehsan Javanmardi, Manabu Tsukada

Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving

Yun Li, Yidu Zhang, Simon Thompson, Ehsan Javanmardi, Manabu Tsukada / April 3, 2026

arXiv:2604.01723v1 Announce Type: new
Abstract: Vision-Language-Action (VLA) models for autonomous driving must integrate diverse textual inputs, including navigation commands, hazard warnings, and traffic state descriptions, yet current systems often…

Author name: Yun Li, Yidu Zhang, Simon Thompson, Ehsan Javanmardi, Manabu Tsukada

Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving