HPRO: Hierarchical Progressive Reward Optimization via Preference Extraction for Emotional Text-to-Speech

Sihang Nie, Xiaofen Xing, Rui Xing, Haoming Li, Ruitong Xiao et al.|June 26, 2026arXiv

Key Takeaway

Separating content and emotion into distinct latent spaces during training prevents reward conflicts and enables better emotional control in TTS systems without sacrificing intelligibility.

Summary

This paper addresses emotional expressiveness in LLM-based text-to-speech by proposing HPRO, a hierarchical reward optimization framework that separates emotional and semantic information to avoid conflicting gradients, then progressively aligns rewards across frame, word, and sentence levels to improve emotional control while maintaining speech clarity.

training multimodal alignment

Key Terms

preference-optimization reward-hacking hierarchical-training prosody differentiable-reward-model