Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Q-Alignment

Q-Alignment

techniques

How well a supervision signal's scores order actions according to the true Q-values from a reference policy.

Q-Alignment — Glossary — ThinkLLM