Pursuing Minimal Sufficiency in Spatial Reasoning
El artículo presenta MSSR, un marco de doble agente que aborda los desafíos del razonamiento espacial en modelos visión-lenguaje mediante la construcción de un Conjunto Mínimo Suficiente (MSS) de información 3D, logrando así un rendimiento superior y trazas de razonamiento interpretables al eliminar información redundante y extraer datos esenciales mediante módulos especializados.