Combinatorial Allocation Bandits with Nonlinear Arm Utility
Este artículo propone el problema de aprendizaje en línea de "Bandidos de Asignación Combinatoria" (CAB) para plataformas de emparejamiento, introduciendo una métrica de satisfacción de los brazos en lugar de maximizar simplemente el número de coincidencias, y presenta algoritmos de límite superior de confianza y muestreo Thompson que garantizan cotas de regret aproximadas validadas mediante experimentos sintéticos.