Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Direct Preference Optimization

Direct Preference Optimization

training

A training technique that teaches a model to prefer certain outputs over others by learning from examples of better and worse responses.

Learn more on Wikipedia

Direct Preference Optimization — Glossary — ThinkLLM