QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

Sergio Hernández-Gutiérrez, Matteo Merler, Ilze Amanda Auzina, Joschka Strüber, Ameya Prabhu et al.|June 30, 2026arXiv

Key Takeaway

Simple prompting baselines outperform recent dense supervision methods, and you can now evaluate supervision signal quality before training by checking if scores align with reference Q-values—saving significant compute.

Summary

QVal is a training-free evaluation framework for comparing dense supervision signals used in long-horizon LLM agents.

evaluation training agents

Key Terms

dense-supervision q-alignment reference-policy long-horizon-tasks