VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Guanyu Zhou, Yida Yin, Wenhao Chai, Shengbang Tong, Xingyu Fu et al.|April 10, 2026arXiv

Key Takeaway

Synthetic data targeted at specific visual skills can significantly improve VLM performance on perception tasks, suggesting that natural images alone don't provide enough supervision for low-level visual understanding.

Summary

VisionFoundry is a system that generates synthetic training data for vision-language models to improve their visual perception skills like spatial understanding and 3D reasoning.

training multimodal data

Key Terms

vision-language-models synthetic-data text-to-image-generation visual-question-answering spatial-understanding