Fast Multi-dimensional Refusal Subspaces via RFM-AGOP

Thomas Winninger|July 2, 2026arXiv

Key Takeaway

RFM-AGOP enables rapid identification of multi-dimensional safety subspaces in LLMs, offering a computationally efficient alternative to existing methods that could scale safety monitoring across larger models.

Summary

This paper presents a fast method for identifying multi-dimensional refusal subspaces in large language models using an adapted Recursive Feature Machine (RFM) algorithm.

safety efficiency

Key Terms

steering-states refusal-behavior activation-space mechanistic-interpretability