Less is More: Quality-Aware Training Data Selection for Scientific Summarization

Maria Nefeli Paraskevopoulou, Tatiana Passali, Grigorios Tsoumakas|June 23, 2026arXiv

Key Takeaway

For scientific summarization, training on carefully selected high-quality examples outperforms training on larger random datasets—quality matters more than quantity when building summarization systems.

Summary

This paper creates a large biomedical summarization dataset (1.88M articles) and shows that author-written abstracts vary in quality. By selecting high-quality training examples based on alignment with source articles, models achieve better results with less data than random sampling, improving both efficiency and factuality.

data evaluation training

Key Terms

training-data-curation source-grounded long-document-summarization factuality-oriented-metrics