Yukai Feng, Zhiheng Wu, Zhengxing Wu, Junwen Gu, Junzhi Yu

M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

Yukai Feng, Zhiheng Wu, Zhengxing Wu, Junwen Gu, Junzhi Yu / April 22, 2026

arXiv:2604.19404v1 Announce Type: new
Abstract: Traditional policy learning methods in cooperative pursuit face fundamental challenges in biomimetic underwater robots, where long-horizon decision making, partial observability, and inter-robot coordina…

Author name: Yukai Feng, Zhiheng Wu, Zhengxing Wu, Junwen Gu, Junzhi Yu

M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit