Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Reward Optimization

Reward Optimization

techniques

Improving model outputs by defining a reward function that scores quality and using it to guide learning toward better solutions.

Reward Optimization — Glossary — ThinkLLM