cs.CV artículos | Gist.Science

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Este estudio demuestra que el aprendizaje por refuerzo (RL) mejora principalmente la precisión y eficiencia de muestreo de los modelos de visión y lenguaje médicos cuando ya existe una base sólida de razonamiento obtenida mediante ajuste fino supervisado (SFT), proponiendo una estrategia de entrenamiento que combina ambos enfoques para lograr un alto rendimiento en diversos benchmarks médicos.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

El paper presenta AG-VAS, un marco de segmentación de anomalías visuales sin ejemplos que aprovecha modelos multimodales grandes mediante tokens de anclaje semántico aprendibles y una alineación cruzada mejorada para lograr un rendimiento superior en la detección de anomalías en escenarios de ceros ejemplos.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Este trabajo presenta una evaluación comparativa que demuestra que, aunque los modelos de visión de vocabulario abierto ofrecen ventajas para la adaptación a nuevos desastres, el aprendizaje supervisado sigue siendo el enfoque más fiable para la segmentación semántica y la detección de objetos en escenas post-desastre cuando existen anotaciones específicas y se requiere precisión en objetos pequeños y bordes complejos.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

El artículo presenta NVB-Face, un método innovador de una sola etapa que genera vistas nuevas consistentes y de alta calidad directamente a partir de una única imagen de rostro degradada, superando las limitaciones de los enfoques tradicionales de dos etapas al evitar la dependencia de una restauración previa.

Taoyue Wang, Xiang Zhang, Xiaotian Li + 2 more2026-03-03🤖 cs.AI

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

El artículo presenta PEFD, un marco de ajuste fino equivariante a la perspectiva que permite la desmosaico de imágenes multiespectrales sin necesidad de datos de referencia, aprovechando la geometría proyectiva y modelos fundacionales preentrenados para lograr un rendimiento superior en datasets médicos y automotrices.

Andrew Wang, Mike Davies2026-03-03💻 cs

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

El artículo presenta MixerCSeg, una arquitectura eficiente para la segmentación de grietas que combina ventajas de CNN, Transformers y Mamba mediante componentes como TransMixer y DEGConv, logrando un rendimiento de vanguardia con una complejidad computacional mínima.

Zilong Zhao, Zhengming Ding, Pei Niu + 2 more2026-03-03🤖 cs.AI

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

El paper presenta TIMI, un marco de generación de múltiples instancias 3D a partir de imágenes que no requiere entrenamiento y logra una alta fidelidad espacial mediante los módulos de guía de separación consciente de instancias (ISG) y actualización geométrica adaptativa estabilizada espacialmente (SGU).

Xiao Cai, Lianli Gao, Pengpeng Zeng + 3 more2026-03-03💻 cs

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Este trabajo propone AOT, un método sin entrenamiento que optimiza la reducción de tokens en modelos de lenguaje grandes para video mediante el transporte óptimo local y global para preservar la información contextual y la fidelidad temporal.

Jinlong Li, Liyuan Jiang, Haonan Zhang + 1 more2026-03-03💻 cs

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

El artículo presenta UniTalking, un marco unificado de difusión de extremo a extremo que genera retratos parlantes de alta fidelidad con sincronización labial precisa y clonación de voz personalizada, superando a los enfoques de código abierto existentes al aprovechar los priores de modelos de generación de video preentrenados.

Hebeizi Li, Zihao Liang, Benyuan Sun + 4 more2026-03-03💻 cs

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

El artículo presenta SeaVIS, el primer marco en línea para la segmentación de instancias audio-visuales que supera las limitaciones de los métodos anteriores mediante un módulo de fusión de atención cruzada causal y una estrategia de aprendizaje contrastivo guiado por audio para mejorar la asociación de instancias sonoras en flujos de video continuos.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

El artículo presenta LinkVLA, un nuevo modelo de visión-lenguaje-acción para la conducción autónoma que mejora la alineación y la eficiencia al unificar tokens en un código compartido, introducir un objetivo de comprensión de acciones y emplear un método de generación de dos pasos que reduce el tiempo de inferencia en un 86%.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Este estudio demuestra que la utilidad de la mezcla global de tokens en la restauración de imágenes por resonancia magnética depende de la tarea específica, ya que los modelos basados en CNN con puertas locales resultan competitivos en reconstrucción y superresolución donde la física impone restricciones globales, mientras que los modelos de mezcla global son superiores en tareas de eliminación de ruido heterocedástico que requieren estimar la fiabilidad espacial variable.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Este artículo presenta el Adaptador de Forense de Deepfake (DFA), un marco de red de doble flujo que combina modelos fundacionales visión-idioma con análisis forense específico para lograr una detección de deepfakes generalizable y de vanguardia sin modificar los parámetros del modelo CLIP preentrenado.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

El artículo presenta VidDoS, el primer marco universal de ataque de denegación de servicio energético-latencia diseñado específicamente para modelos de lenguaje grandes basados en video, el cual utiliza desencadenantes agnósticos a la instancia para inflar drásticamente la latencia de inferencia y provocar violaciones de seguridad críticas en aplicaciones como la conducción autónoma.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

El artículo presenta MM-Mem, una arquitectura de memoria multimodal piramidal inspirada en la teoría de la huella difusa que utiliza un cuello de botella de información semántica para distilar eficientemente recuerdos detallados en esquemas abstractos, mejorando así la comprensión de videos de larga duración mediante una recuperación jerárquica y dinámica.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

El artículo presenta UltraStar, un nuevo enfoque que mejora la navegación automatizada en ecocardiografía mediante un modelo de grafo estelar semánticamente consciente que reformula la tarea como una localización global basada en anclajes espaciales, superando así las limitaciones de los métodos existentes al manejar trayectorias históricas ruidosas y largas.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

El artículo presenta WildCross, un nuevo benchmark de gran escala que aborda la brecha en la percepción robótica para entornos naturales no estructurados mediante un conjunto de datos multimodal con más de 476.000 frames RGB, anotaciones de profundidad métrica y normales de superficie alineados con escaneos LiDAR y poses 6DoF para tareas de reconocimiento de lugares y estimación de profundidad.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

El artículo presenta SCATR, un modelo de seguimiento basado en LiDAR que mitiga la supresión de nuevas instancias mediante dos estrategias de entrenamiento innovadoras, asignación de segunda oportunidad y eliminación de consultas de seguimiento, logrando así un rendimiento superior que cierra la brecha histórica entre los métodos de seguimiento por atención y por detección.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

El artículo presenta ATA, un marco de inferencia libre de entrenamiento que mejora los modelos Visión-Lenguaje-Acción mediante un razonamiento implícito guiado por atención y acción, logrando mayor éxito en tareas y eficiencia sin necesidad de anotaciones adicionales.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

El artículo presenta RadioGS, un marco de renderizado inverso que utiliza surfels gaussianos y trazado de rayos 2D para integrar consistencia radiométrica, logrando así una descomposición precisa de materiales y efectos de iluminación global con alta eficiencia computacional y capacidad de reiluminación.

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

← Anterior Siguiente →