Chart-RL: Policy Optimization Reinforcement Learning for Enhanced Visual Reasoning in Chart Question Answering with Vision Language Models

Yunfei Bai, Amit Dhanda, Shekhar Jain|April 3, 2026arXiv

Key Takeaway

Reinforcement learning with adaptive rewards can significantly improve chart understanding in vision-language models, enabling smaller models to outperform larger ones while reducing inference time by 3x.

Summary

Chart-RL uses reinforcement learning to improve how vision-language models understand and answer questions about charts.

reasoning training efficiency

Key Terms

policy-gradient lora vision-language-model reward-function visual-reasoning