History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation
Diese Arbeit stellt ein trainingsfreies, raum-zeitliches Token-Pruning-Framework vor, das die Latenz von Vision-Language-Action-Modellen für die robotische Navigation erheblich reduziert, ohne die Genauigkeit zu beeinträchtigen, und deren Echtzeit-Einsatz auf echten Robotern ermöglicht.