RewardFlow: Generate Images by Optimizing What You Reward

Onkar Susladkar, Dong-Hwan Jang, Tushar Prakash, Adheesh Juvekar, Vedant Shah et al.|April 9, 2026arXiv

Key Takeaway

You can steer pretrained image models at inference time using multiple differentiable rewards and adaptive weighting—no retraining needed—to get better control over semantic accuracy, visual quality, and spatial grounding.

Summary

RewardFlow guides image generation by optimizing multiple reward signals during inference without modifying the model. It combines semantic, visual quality, and spatial rewards with a smart system that adjusts how much each reward matters based on the editing task, achieving better image editing and composition results.

multimodal

Key Terms

langevin-dynamics flow-matching differentiable-reward vqa-based-reward adaptive-policy