Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
Dit artikel introduceert een complexiteitsbewust adaptief inferentiekader voor Vision-Language-Action-modellen dat dynamisch kiest tussen direct handelen, redeneren of het afbreken van taken op basis van de waargenomen situatie, waarbij visuele embeddings worden aangetoond als een efficiënt en betrouwbaar middel voor het detecteren van taakcomplexiteit.