Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/ORPO (Odds Ratio Preference Optimization)

ORPO (Odds Ratio Preference Optimization)

training

A training technique that aligns a model's outputs with human preferences by combining supervised fine-tuning and preference learning in a single efficient training stage.

Related Capabilities

Instruction Following

Adhering to complex, structured, or constrained instructions

ORPO (Odds Ratio Preference Optimization) — Glossary — ThinkLLM