Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Conditional Misalignment

Conditional Misalignment

techniques

Misaligned behavior that only appears when inputs share features with the training data, while appearing safe on out-of-distribution prompts.

Conditional Misalignment — Glossary — ThinkLLM