Detect, Unlearn, Restore: Defending Text Summarization Models Against Data Poisoning

Poojitha Thota, Shirin Nilizadeh|June 24, 2026arXiv

Key Takeaway

Poisoned summarization models leave detectable structural artifacts—high training influence in white-box settings and unusual sensitivity to semantic perturbations in black-box settings—allowing 85-92% detection accuracy and recovery of 96% of original behavior without full retraining.

Summary

This paper presents a defense framework against data poisoning attacks on text summarization models during fine-tuning. The authors develop detection methods using influence analysis (white-box) and behavioral auditing (black-box), plus an unlearning technique to remove poisoned effects.

safety training evaluation

Key Terms

data-poisoning influence-function unlearning behavioral-audit gradient-ascent