A Comparative Study of Dynamic Programming and Reinforcement Learning in Finite Horizon Dynamic Pricing

Lev Razumovskiy, Nikolay Karenin|April 15, 2026arXiv

Key Takeaway

Dynamic Programming and RL have different strengths in pricing: DP optimizes based on estimated demand patterns but struggles with computational complexity, while RL learns from trial-and-error but may be less stable—the best choice depends on your problem's complexity and constraints.

Summary

This paper compares two approaches to dynamic pricing: Fitted Dynamic Programming (which estimates demand from data) and Reinforcement Learning.

training applications

Key Terms

dynamic-programming reinforcement-learning fitted-dynamic-programming finite-horizon