cs.CV artículos | Gist.Science

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

Este artículo presenta TomatoMAP, un dataset integral de imágenes multivista y multipostura de tomates con anotaciones detalladas de regiones de interés y etapas de crecimiento, validado mediante un marco de aprendizaje profundo que demuestra un rendimiento comparable al de expertos humanos en fenotipado de precisión.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

El artículo presenta ExDD, un marco innovador para la detección de defectos industriales que supera las limitaciones de los enfoques de una sola clase mediante el modelado explícito de distribuciones duales de características, el uso de modelos de difusión para sintetizar defectos y una puntuación de ratio que fusiona métricas de distancia para lograr un rendimiento superior en el conjunto de datos KSDD2.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

El artículo presenta GSSR, un método que optimiza la colocación individual de los gaussianos mediante regularización de opacidad y reinitialización guiada por profundidad y normales para lograr una reconstrucción geométrica precisa y uniforme de superficies 3D, superando las limitaciones de métodos anteriores como 3DGS y PGSR.

Zhentao Huang, Di Wu, Zhenbang He, Minglun Gong2026-03-09💻 cs

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabajo presenta un sistema multiagente basado en modelos de lenguaje grandes multimodales que supera significativamente al estado del arte en la extracción automatizada y robusta de información química de la literatura, logrando un puntaje F1 del 76,27% en gráficos de reacciones complejos y demostrando una amplia versatilidad en diversas tareas de extracción de datos.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Este trabajo presenta MAP, un método de decodificación sin entrenamiento que mitiga las alucinaciones en los Modelos Grandes de Visión y Lenguaje interpretando sus estados ocultos como un mapa semántico 2D y refinando las representaciones mediante operaciones de atención a nivel de mapa para mejorar la consistencia factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

El artículo presenta VLMQ, un marco de cuantización post-entrenamiento diseñado específicamente para modelos de visión y lenguaje que aborda el exceso de tokens visuales y la brecha modal mediante la priorización selectiva de tokens salientes, logrando un rendimiento superior en configuraciones de bajo bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

El artículo presenta SGDFuse, un modelo de difusión condicional guiado por Segment Anything Model (SAM) que utiliza máscaras semánticas como priores explícitos para lograr una fusión de imágenes infrarrojas y visibles de alta fidelidad, preservando objetivos clave y mejorando el rendimiento en tareas visuales posteriores.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

Este artículo presenta los Campos de Expertos Multivariados, un nuevo marco de aprendizaje de priores de imágenes que generaliza métodos existentes mediante funciones potenciales multivariadas, logrando un rendimiento superior a los modelos univariados y comparable al de las redes neuronales profundas en diversas tareas de reconstrucción, pero con mayor velocidad, menor complejidad paramétrica y garantías teóricas de convergencia.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

El paper presenta DianJin-OCR-R1, un modelo de visión y lenguaje mejorado con razonamiento que combina capacidades de reconocimiento propias con la consulta a modelos expertos y una verificación visual iterativa para reducir las alucinaciones y lograr una precisión superior en tareas de OCR.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Este artículo propone SSL-SLR, un marco de aprendizaje auto-supervisado que mejora el reconocimiento de la lengua de signos mediante un enfoque con pares negativos libres y una nueva técnica de aumento de datos para superar las limitaciones de los métodos contrastivos existentes.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

El artículo presenta RED, una red de desenfoque de movimiento guiada por eventos que mejora la robustez ante la subnotificación de eventos mediante una estrategia de perturbación orientada a la robustez y un mecanismo de desentrelazamiento de representaciones específicas de modalidad para fusionar selectivamente la información semántica y de movimiento.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Este trabajo propone Kernel VICReg, un nuevo marco de aprendizaje auto-supervisado que traslada el objetivo VICReg a un Espacio de Hilbert de Núcleo Reproductor (RKHS) para capturar dependencias no lineales y mejorar el rendimiento en datos con estructuras complejas o muestras limitadas, superando a los métodos euclidianos tradicionales.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

El artículo propone C²Prompt, un nuevo método para el aprendizaje continuo federado que mejora el rendimiento al abordar la coherencia del conocimiento a nivel de clase mediante un mecanismo de compensación de distribución local y un esquema de agregación de prompts consciente de la clase, logrando así resultados de vanguardia en múltiples benchmarks.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Este trabajo propone un enfoque de exploración semántica para robots bípedos que, mediante la arbitraje de evidencia semántica calibrada por confianza, una memoria topológica de crecimiento controlado y la selección de subobjetivos basada en utilidad, transforma observaciones semánticas ruidosas en decisiones de exploración estables y ejecutables sin depender de reconstrucciones geométricas densas.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

El artículo presenta DeCLIP, un marco eficiente en parámetros y sin necesidad de retransmisión que mejora el aprendizaje incremental de clases multi-etiqueta basado en CLIP mediante un esquema de prompts desacoplado por clase y una estrategia de temperado de similitud adaptativa para mitigar el olvido catastrófico y reducir las tasas de falsos positivos.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

Beyond Flat Unknown Labels in Open-World Object Detection

El artículo presenta BOUND, un detector de objetos en entornos abiertos que supera las limitaciones de las etiquetas "desconocido" planas al inferir categorías semánticas jerárquicas para objetos no vistos, mejorando así la toma de decisiones en aplicaciones críticas como la conducción autónoma sin sacrificar la precisión en las clases conocidas.

Yuchen Zhang, Yao Lu, Johannes Betz2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

El artículo presenta LikePhys, un método libre de entrenamiento que evalúa la comprensión de la física intuitiva en modelos de difusión de video mediante una métrica de preferencia basada en la verosimilitud, demostrando una fuerte alineación con las preferencias humanas y revelando que, aunque los modelos actuales tienen dificultades con dinámicas complejas, su comprensión física mejora a medida que aumenta la capacidad del modelo y la configuración de inferencia.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

El artículo presenta CanvasMAR, un modelo autoregresivo de predicción de video que mejora la calidad y la coherencia de la generación con pocos pasos mediante la introducción de un "lienzo" global borroso como prior estructurado, un currículo de muestreo de fácil a difícil basado en el movimiento y una guía libre de clasificadores compuesta.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

El artículo presenta 3DThinker, un marco innovador que permite a los modelos de visión y lenguaje realizar un razonamiento espacial 3D basado en la imaginación geométrica a partir de vistas limitadas, sin depender de datos 3D etiquetados ni entradas previas en tres dimensiones.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

El artículo presenta AURASeg, un marco de segmentación de áreas transitables para robots autónomos que utiliza refinamiento de bordes asistido por residuos y descompresión progresiva guiada por atención para lograr alta precisión en el borde y eficiencia en dispositivos de borde.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

← Anterior Siguiente →