ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance
Ce papier présente ReViP, un cadre novateur pour les modèles Vision-Language-Action qui atténue les complétions fausses en rééquilibrant l'attention entre la vision et la proprioception grâce à des indices visuels conscients du progrès, tout en introduisant une nouvelle suite de benchmarks pour évaluer ce phénomène.