Learning the Signature of Memorization in Autoregressive Language Models

David Ilić, Kostadin Cvejoski, David Stanojević, Evgeny Grigorenko|April 3, 2026arXiv

Key Takeaway

Fine-tuned language models exhibit a universal memorization signature detectable by learned classifiers, enabling membership inference attacks that generalize across architectures without requiring shadow models or hand-crafted heuristics.

Summary

This paper reveals that language models leave a detectable fingerprint of memorization during fine-tuning that works across different model architectures (Transformers, Mamba, RWKV). Instead of using hand-crafted rules to detect memorization, the authors train a classifier to recognize this signature, which transfers to unseen architectures and datasets with high accuracy.

safety training evaluation

Key Terms

membership-inference-attack memorization fine-tuning zero-shot-generalization shadow-model