A Readiness-Driven Runtime for Pipeline-Parallel Training under Runtime Variability

Ruitao Liu, Xinyang Tian, Shuo Chen, Tingrui Zhang, Guang Yang et al.|May 18, 2026arXiv

Key Takeaway

For distributed model training, executing tasks based on actual readiness rather than pre-committed schedules can dramatically reduce GPU idle time and improve throughput, especially when computation times vary unpredictably.

Summary

This paper introduces RRFP, a runtime system that improves GPU training efficiency by executing ready tasks immediately instead of waiting for a pre-planned order. When training large models across multiple GPUs, unpredictable delays in computation cause stages to sit idle.

training efficiency scaling

Key Terms

pipeline-parallelism runtime-variability stage-misalignment readiness-driven-execution tensor-parallel-coordination