Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion
Il paper propone R4T, un metodo che utilizza l'apprendimento per rinforzo una sola volta per generare dati di addestramento allineati agli obiettivi, permettendo di addestrare un recuperatore basato su diffusione leggero che risolve efficientemente problemi di recupero a ventaglio ottimizzando proprietà di insieme come diversità e coerenza con una latenza significativamente ridotta.