When are likely answers right? On Sequence Probability and Correctness in LLMs

Johannes Zenn, Jonas Geiping|June 25, 2026arXiv

Key Takeaway

Sequence probability is useful for ranking answers within a dataset but shouldn't be trusted as a guide for choosing decoding methods or hyperparameters—optimizing for probability doesn't guarantee better answers.

Summary

This paper investigates whether higher sequence probability in language models actually correlates with correct answers. The researchers test this across different decoding methods, models, and benchmarks, finding that while probability predicts correctness within a dataset, changing decoding parameters to increase probability doesn't reliably improve accuracy.

evaluation reasoning

Key Terms

sequence-probability decoding-strategies self-consistency verifier-free-self-improvement