Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference
Este artículo introduce un marco teórico basado en el filtrado de partículas para analizar rigurosamente los métodos de inferencia paralela en modelos de lenguaje, identificando garantías no asintóticas, mejoras algorítmicas y límites fundamentales, aunque sus hallazgos empíricos sugieren que la precisión final depende de factores más allá del error de muestreo.