cs.CV artículos | Gist.Science

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

El paper presenta iLLaVA, un método que acelera de extremo a extremo los modelos multimodales grandes optimizando conjuntamente el codificador de imágenes y el modelo de lenguaje mediante una estrategia de fusión de tokens que recicla información útil, logrando mejoras significativas en velocidad y eficiencia sin sacrificar la precisión.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

El artículo presenta HarmonicEval, una métrica de evaluación automática sin referencia que genera puntuaciones integrales y por criterio mediante un enfoque ascendente, y introduce el benchmark MMHE con 18.000 juicios humanos para demostrar su superior correlación con la evaluación humana en escenarios multimodales y multitarea.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

El artículo presenta LangSurf, un método que mejora la comprensión de escenas 3D mediante un campo de lenguaje incrustado en superficies que alinea con precisión las características lingüísticas con los objetos, superando a los enfoques anteriores en segmentación semántica abierta y permitiendo tareas avanzadas como la edición y eliminación de instancias.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este trabajo presenta un método que utiliza modelos de visión y lenguaje preentrenados para aprender modelos de mundo simbólicos a partir de demostraciones cortas, permitiendo a los robots generalizar de forma cero-shot y resolver problemas de toma de decisiones a largo plazo en entornos complejos mediante planificación.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Este artículo propone estrategias de reducción de datos basadas en agrupamiento latente para optimizar la eficiencia de la entrenamiento adversario semi-supervisado (SSAT), logrando una robustez comparable con 5 a 10 veces menos datos no etiquetados y reduciendo el tiempo de ejecución en 3 a 4 veces.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Este artículo presenta un modelo de difusión agnóstico al problema basado en la estimación del máximo a posteriori (MAP) que, al dividir la función de puntuación condicional en un término incondicional preentrenado y un término guiado estimado mediante una nueva metodología, mejora la preservación de estructuras y la coherencia en tareas de procesamiento de imágenes como la superresolución y la inpainting.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

El artículo presenta el control predictivo generativo (GPC), un marco de aprendizaje que combina la clonación de una política difusiva con un modelo de mundo predictivo para sintetizar un planificador en línea que supera consistentemente a la clonación de comportamiento en diversas tareas de manipulación robótica.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

El artículo presenta VL-Nav, un sistema de navegación visión-lenguaje neuro-simbólico que combina razonamiento neuronal con guía simbólica para descomponer tareas complejas y explorar eficientemente entornos desconocidos, logrando altas tasas de éxito en pruebas simuladas y del mundo real.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

El artículo presenta Prompt-SID, un marco de aprendizaje auto-supervisado para la eliminación de ruido en imágenes individuales que preserva los detalles estructurales mediante un modelo de difusión latente para generar prompts estructurales y un mecanismo de repetición de escala para mitigar las diferencias de resolución.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

El artículo presenta LaVCa, un enfoque basado en modelos de lenguaje grande que genera descripciones en lenguaje natural de la selectividad de los voxels en la corteza visual, superando a los métodos anteriores al revelar propiedades funcionales más detalladas y diferenciaciones finas en el procesamiento visual humano.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Este estudio presenta un algoritmo que fusiona imágenes de resonancia magnética multimodal (T1, T2, T1ce y FLAIR) mediante técnicas de segmentación 2D/3D con U-Net y promedios ponderados, logrando una clasificación de subclases de gliomas con una precisión del 99,25% utilizando un modelo ResNet50.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

El artículo presenta LOOP, un nuevo método de aprendizaje por refuerzo para el ajuste fino de modelos de difusión texto-a-imagen que combina técnicas de reducción de varianza de REINFORCE con la robustez de PPO para lograr un mejor equilibrio entre eficiencia de muestreo y rendimiento final.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Este trabajo propone un modelo de aprendizaje profundo geométrico basado en transformadores que utiliza mallas tetraédricas y puntos de referencia anatómicos para mejorar el diagnóstico de la enfermedad de Alzheimer y predecir la positividad de amiloide cerebral en pacientes de riesgo medio, evitando así la necesidad de costosos y invasivos escáneres PET.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

El artículo presenta Snapmoji, un sistema que genera instantáneamente avatares 3D personalizables y animables en dispositivos móviles mediante una técnica de "dual-stylization" que adapta la identidad del usuario a un estilo principal y luego aplica un estilo secundario, superando las limitaciones de las plataformas existentes.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Este artículo presenta SceneEval, un marco de evaluación y un nuevo benchmark (SceneEval-500) diseñados para medir de manera integral la coherencia semántica en la síntesis de escenas interiores 3D condicionadas por texto, abordando tanto los requisitos explícitos del usuario como las expectativas implícitas de plausibilidad que las métricas actuales ignoran.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Este trabajo propone un método de Aprendizaje Compatible hacia Atrás (BCL) que relaja las estrictas restricciones de alineación mediante la introducción de perturbaciones en los prototipos de características antiguas, preservando así la capacidad discriminativa del nuevo modelo sin necesidad de costosos procesos de recálculo de embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabajo presenta un método unificado para la reconstrucción robusta de dos manos a partir de imágenes monoculares que combina la alineación de priores estructurales heterogéneos de modelos fundacionales en 2D con un modelo de difusión libre de penetración en 3D para lograr interacciones físicamente creíbles y resistentes a oclusiones.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Este trabajo propone un modelo de completado de instancias basado en nubes de puntos que integra restricciones de escena mediante un mecanismo de atención cruzada para recuperar geometrías faltantes con mayor fidelidad y plausibilidad, validado mediante un nuevo dataset llamado ScanWCF.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

El artículo presenta LEL, un marco de aprendizaje conjunto con restricciones de continuidad de Lipschitz que mejora la estabilidad, precisión y robustez del reconocimiento de emociones basado en EEG intra-sujeto, logrando resultados superiores en tres conjuntos de datos públicos.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Este artículo presenta un marco de comunicación orientado a tareas que utiliza un codificador O-VIB con determinación automática de relevancia y restricciones ortogonales para extraer características multivista compactas y lograr una localización visual precisa en entornos urbanos con limitaciones de ancho de banda y recursos.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

← Anterior Siguiente →