Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Qiyao Ma, Dechen Gao, Rui Cai, Boqi Zhao, Hanchu Zhou et al.|April 8, 2026arXiv

Key Takeaway

Reward models today fail at personalization—they can't distinguish between equally good responses based on individual user preferences—and this benchmark provides a way to measure and improve this critical capability.

Summary

This paper introduces Personalized RewardBench, a benchmark for testing whether reward models can capture individual user preferences rather than just general quality.

evaluation alignment training

Key Terms

reward-model pluralistic-alignment best-of-n-sampling proximal-policy-optimization