Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos

Bowen Liu, Li Yang, Shanshan Song, Mingyu Tang, Zhifang Gao et al.|April 23, 2026arXiv

Key Takeaway

Diagnosis-driven video summarization for medical imaging requires organizing sparse diagnostic events into coherent clinical contexts rather than treating frames independently—DiCE shows this contextual reasoning approach outperforms standard methods on ultra-long endoscopy videos.

Summary

This paper tackles video-level analysis of capsule endoscopy (CE) videos by introducing a new task: extracting key diagnostic frames and making accurate diagnoses from ultra-long videos containing thousands of normal frames mixed with rare abnormal findings.

evaluation multimodal applications

Key Terms

video-summarization evidence-aggregation contextual-reasoning sparse-events