SAVGO: Learning State-Action Value Geometry with Cosine Similarity for Continuous Control

Stavros Orfanoudakis, Pedro P. Vergara|May 1, 2026arXiv

Key Takeaway

By explicitly using value similarity to shape policy updates in continuous control, SAVGO unifies representation learning, value estimation, and policy optimization—enabling more efficient learning than standard actor-critic methods.

Summary

SAVGO is a reinforcement learning algorithm that learns to embed state-action pairs in a space where similar values are close together (using cosine similarity). This geometry guides policy updates toward better actions without relying solely on gradients, improving sample efficiency on continuous control tasks like robot movement.

Key Terms

joint-embedding-space cosine-similarity off-policy-actor-critic similarity-kernel