Learning Action Priors for Cross-embodiment Robot Manipulation

Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun et al.|June 24, 2026arXiv

Key Takeaway

Pretraining action modules on motion structure before vision-language alignment significantly improves robot learning efficiency and cross-embodiment generalization, particularly in data-scarce real-world settings.

Summary

This paper proposes a two-stage training approach for robot manipulation models that first learns motion patterns from action trajectories alone, then transfers this knowledge to vision-language-action models.

training multimodal efficiency

Key Terms

vision-language-action-model flow-matching cross-embodiment-transfer latent-distillation action-prior