Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Zibin Geng, Xuefeng Jiang, Jia Li, Zheng Li, Tian Wen et al.|April 10, 2026arXiv

Key Takeaway

When training with noisy labels, anchoring text prompts to visual evidence makes them more robust—visual information is inherently more reliable than potentially incorrect labels, so using it to guide prompt updates reduces memorization of mislabeled samples.

Summary

VisPrompt is a lightweight framework that makes prompt learning for vision-language models more robust to mislabeled data. It uses visual information to guide and stabilize prompt learning by injecting image semantics into text prompts through a cross-modal attention mechanism, while adaptively controlling how much visual information to use per sample.

multimodal training efficiency

Key Terms

prompt-engineering vision-language-models cross-modal-attention noisy-labels parameter-efficient-fine-tuning