Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Direct Preference Optimization

Direct Preference Optimization

techniques

Training method that aligns models with human preferences by directly optimizing the difference between preferred and dispreferred outputs.

Direct Preference Optimization — Glossary — ThinkLLM