Mem-T: Densifying Rewards for Long-Horizon Memory Agents
El artículo presenta Mem-T, un agente de memoria autónomo que utiliza el marco de aprendizaje por refuerzo MoT-GRPO para transformar las recompensas dispersas en supervisión densa, logrando así una optimización integral de la gestión de memoria que supera a los enfoques existentes en rendimiento y eficiencia.