cs.CV artículos | Gist.Science

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

El artículo presenta Ref-Adv, un nuevo benchmark diseñado para evaluar la capacidad de razonamiento visual y fundamentación de los modelos de lenguaje multimodal en tareas de expresión de referencia, revelando que, a pesar de su alto rendimiento en conjuntos de datos existentes, estos modelos dependen en gran medida de atajos y carecen de un razonamiento genuino ante desafíos más rigurosos.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

El artículo presenta BUSD-Agent, un marco de agentes en cascada guiado por la experiencia que reduce las derivaciones innecesarias a biopsia en la detección de cáncer de mama mediante un proceso de decisión selectivo en dos etapas que utiliza un banco de memoria para adaptar dinámicamente las políticas de clasificación y diagnóstico basándose en casos históricos similares.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

El artículo presenta ABPolicy, una política de flujo asíncrona basada en B-splines que garantiza movimientos robóticos suaves y en tiempo real mediante la eliminación de discontinuidades y el jitter en la ejecución.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

El artículo presenta SegMate, un marco de trabajo 2.5D ligero y eficiente que integra arquitecturas asimétricas y mecanismos de atención para lograr un rendimiento de segmentación de múltiples órganos a nivel del estado del arte con una reducción significativa en los requisitos computacionales y de memoria, facilitando su despliegue en entornos clínicos con recursos limitados.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

El artículo presenta CS-CLIP, un método que mejora la comprensión composicional de los modelos CLIP al descomponer las descripciones en unidades de entidades y relaciones para corregir el problema de las "medio-verdades", donde detalles incorrectos aumentan artificialmente la puntuación de similitud.

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Este trabajo propone un marco de estimación de transferibilidad basado en topología que, mediante métricas globales y locales de consistencia estructural, permite seleccionar modelos de visión médica foundation de manera eficiente y sin entrenamiento, superando significativamente a los métodos actuales en la tarea de segmentación.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

El artículo presenta GPU-SDF, un marco de reconstrucción neural implícita para interiores que mejora la fidelidad de los detalles finos mediante la estimación explícita de la incertidumbre de los priores geométricos y la aplicación de restricciones complementarias, como un campo de distancia de bordes y una regularización de consistencia multivista, para optimizar la influencia de los priores en lugar de descartarlos.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Este trabajo propone STE-VLN, un enfoque que mejora la navegación visión-lenguaje en entornos no vistos mediante la integración del primer grafo de conocimiento espaciotemporal multimodal a gran escala (YE-KG), extraído de videos de interiores reales, para resolver instrucciones ambiguas y razonamiento a largo plazo.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

El artículo presenta PointCoT, un marco innovador que mejora la comprensión de nubes de puntos 3D en modelos de lenguaje multimodal mediante un razonamiento explícito de tipo "cadena de pensamiento" y un nuevo conjunto de datos de instrucción, superando así las alucinaciones geométricas de los enfoques anteriores.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Este artículo propone una red de extracción de características de microexpresiones de doble rama con atención paralela y fusión adaptativa que supera a los métodos existentes en el conjunto de datos CASME II, alcanzando una precisión del 74,67%.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

El artículo presenta CC-VQA, un método sin entrenamiento que mitiga los conflictos de conocimiento en la respuesta visual a preguntas basada en conocimiento mediante un razonamiento centrado en la visión y una codificación y decodificación guiadas por correlación, logrando un rendimiento superior en varios benchmarks.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

Este estudio presenta GDA-YOLO11, un nuevo modelo de segmentación de instancias amodal que mejora la detección de frutas ocultas y la precisión en la recolección robótica de cítricos, logrando tasas de éxito superiores incluso en escenarios de alta oclusión.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls

SwitchCraft es un marco de generación de video sin entrenamiento que mejora la claridad de eventos múltiples y la consistencia temporal mediante la alineación de las consultas de atención con los prompts específicos y el ajuste adaptativo de la fuerza de control.

Qianxun Xu, Chenxi Song, Yujun Cai + 1 more2026-03-02💻 cs

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

El artículo presenta NV-CoT, un marco que permite a los modelos de lenguaje multimodal realizar razonamiento visual mediante la generación de coordenadas numéricas continuas en lugar de tokens discretos, mejorando significativamente la precisión de localización y la exactitud de las respuestas con modificaciones arquitectónicas mínimas.

Kesen Zhao, Beier Zhu, Junbao Zhou + 3 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Este trabajo propone un marco de aprendizaje profundo que combina representaciones de modelos fundacionales con una pérdida de puerta consciente del territorio para mejorar la segmentación de infartos y la puntuación ASPECTS en TC sin contraste, logrando un rendimiento superior al integrar el razonamiento anatómico clínico en el entrenamiento.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

Este trabajo propone una estrategia de segmentación volumétrica que extiende las representaciones fundacionales 2D de DINOv3 a imágenes de resonancia magnética cerebral neonatal mediante un mecanismo estructurado de desensamblaje y reensamblaje de ventanas, logrando recuperar la estructura anatómica tridimensional y alcanzar un puntaje Dice de 0.65 en la segmentación del hipocampo.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

SpikeTrack es un marco innovador basado en redes de neuronas de espigas que logra un seguimiento visual RGB eficiente en energía y preciso mediante un diseño asimétrico y un módulo de recuperación de memoria, superando a los rastreadores avanzados basados en redes neuronales artificiales con un consumo energético significativamente menor.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Este trabajo presenta MSVBench, el primer benchmark integral para la generación de videos multi-toma que introduce un marco de evaluación híbrido combinando modelos multimodales grandes y expertos, logrando una correlación del 94.4% con juicios humanos y proporcionando señales de supervisión escalables para alinear el rendimiento de los modelos con estándares humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

Este trabajo presenta Venus, un marco de dos etapas que potencia a los modelos de lenguaje multimodal grandes para ofrecer orientación estética y recorte de imágenes mediante el nuevo conjunto de datos y benchmark AesGuide, logrando un rendimiento superior al estado del arte en la mejora interpretativa y interactiva de la fotografía.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

El artículo presenta MINT, un marco innovador de transferencia de conocimiento multimodal que alinea las representaciones del habla con un espacio de biomarcadores neurales derivados de resonancia magnética para permitir un cribado biológicamente fundamentado de la enfermedad de Alzheimer en etapas tempranas sin necesidad de neuroimagen durante la inferencia.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

← Anterior Siguiente →