Anjir Ahmed Chowdhury, Syed Zawad, Feng Yan

Know When To Fold ‘Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection

Anjir Ahmed Chowdhury, Syed Zawad, Feng Yan / May 15, 2026

arXiv:2605.14062v1 Announce Type: new
Abstract: While synthetic data generation with large language models (LLMs) is widely used in post-training pipelines, existing approaches typically generate full outputs before applying quality filters, leading t…

Author name: Anjir Ahmed Chowdhury, Syed Zawad, Feng Yan

Know When To Fold ‘Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection