Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

RLHF

training

Reinforcement Learning from Human Feedback — a training technique that aligns model outputs with human preferences.

Learn more on Wikipedia

Related Capabilities

Instruction Following

Adhering to complex, structured, or constrained instructions

RLHF — Glossary — ThinkLLM