Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts

Jiayuan Ye, Vitaly Feldman, Kunal Talwar|April 9, 2026arXiv

Key Takeaway

Removing redundant or low-frequency facts from training data helps models memorize factual knowledge better, letting smaller models achieve the same fact accuracy as much larger ones.

Summary

This paper shows that LLMs struggle to memorize facts when training data contains too many facts or has skewed frequency distributions. The researchers propose a data pruning method that selects which facts to include in training, enabling smaller models to memorize significantly more facts—a GPT2-Small model trained with pruned data matched a 10X larger model trained on full data.

training data efficiency

Key Terms

memorization hallucination training-data-curation model-capacity frequency-distribution