Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Emergent Misalignment

Emergent Misalignment

techniques

When a model trained on narrow misaligned behavior generalizes to more severe harmful behaviors outside its training distribution.

Emergent Misalignment — Glossary — ThinkLLM