ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning

Yu-Cheng Shi, Zhen-Hao Xie, Jun-Tao Tang, Da-Wei Zhou|June 1, 2026arXiv

Key Takeaway

When continually training multimodal models on new tasks, routing decisions based only on semantic similarity fail—you also need to account for output format differences to prevent gradient interference and task confusion.

Summary

ProtoAda solves a key problem in continual learning for multimodal AI: when models learn new vision-language tasks sequentially, they often forget old ones or mix up tasks with different output formats (like coordinate prediction vs. text answers).

training multimodal efficiency

Key Terms

continual-learning parameter-efficient-fine-tuning mixture-of-experts task-routing gradient-interference