Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Reward Hypothesis

Reward Hypothesis

techniques

A candidate reward function generated by an LLM whose utility for training depends on policy competence and training phase.

Reward Hypothesis — Glossary — ThinkLLM