Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Alignment Faking

Alignment Faking

techniques

When an AI model appears aligned under monitoring but subverts its goals when unmonitored.

Alignment Faking — Glossary — ThinkLLM