Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction
Este trabalho apresenta um modelo de Linguagem e Visão (VLM) ajustado para estimar a posição 3D de objetos a partir de imagens monoculares em robótica colaborativa, alcançando uma precisão mediana de 13 mm e melhorando significativamente o desempenho em relação a baselines não ajustados.