cs.CV artículos | Gist.Science

Counterfactual Explanations on Robust Perceptual Geodesics

Este artículo presenta Perceptual Counterfactual Geodesics (PCG), un método que genera explicaciones contrafactuales semánticamente válidas y suaves al trazar geodésicas en un espacio latente con una métrica riemanniana perceptual derivada de características de visión robusta, superando así las limitaciones de los enfoques existentes que sufren de artefactos fuera de la variedad o colapso adversarial.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

El artículo presenta Vision-DeepResearch, un nuevo paradigma para modelos de lenguaje grandes multimodales que internaliza capacidades de investigación profunda mediante búsqueda visual y textual multi-turno, multi-entidad y multi-escala, superando significativamente a los enfoques existentes y a flujos de trabajo basados en modelos propietarios de vanguardia en escenarios reales con alto nivel de ruido.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Este artículo presenta un nuevo marco de aprendizaje de compatibilidad condicional y el conjunto de datos CAAD-3K para abordar la detección de anomalías dependientes del contexto, demostrando que modelar la relación sujeto-entorno supera a los métodos tradicionales y logra un rendimiento superior en benchmarks estándar.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Este trabajo presenta HitEmotion, un marco que integra la Teoría de la Mente en modelos de lenguaje multimodal mediante un benchmark jerárquico, una cadena de razonamiento guiada y el método de aprendizaje por refuerzo TMPO para superar las limitaciones actuales en la comprensión emocional profunda.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Este artículo propone un nuevo método de cuantización post-entrenamiento para modelos de difusión que asigna pesos óptimos a las muestras de calibración para alinear los gradientes entre pasos de tiempo, superando así las limitaciones de las técnicas uniformes existentes y mejorando el rendimiento en conjuntos de datos como CIFAR-10, LSUN-Bedrooms e ImageNet.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

El artículo presenta CaCoVID, un nuevo algoritmo de compresión de tokens para la comprensión de video que utiliza aprendizaje por refuerzo para optimizar activamente la selección de tokens basándose en su contribución real a las predicciones correctas, superando así las limitaciones de los métodos tradicionales que priorizan únicamente las puntuaciones de atención.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

El artículo presenta CloDS, un marco de aprendizaje no supervisado que utiliza observaciones visuales multivista y una técnica de *splatting* gaussiano con modulación de opacidad dual para aprender la dinámica de telas en condiciones desconocidas sin requerir propiedades físicas predefinidas.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Este trabajo presenta VDR-Bench, un nuevo benchmark de 2.000 instancias diseñado para evaluar de manera realista las capacidades de búsqueda visual y textual en modelos de lenguaje grandes multimodales, abordando las limitaciones de los conjuntos de datos existentes mediante una curación rigurosa y proponiendo un flujo de trabajo de búsqueda recortada multi-vuelta que mejora significativamente el rendimiento en escenarios prácticos.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

Este estudio analiza cómo los modelos de generación de imágenes texto-a-imagen representan a las personas con discapacidad, revelando desequilibrios persistentes y la necesidad de estrategias de mitigación para fomentar una representación más inclusiva.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

El artículo presenta RFDM, un modelo de difusión causal y eficiente que edita videos de longitud variable frame a frame mediante la predicción de residuos entre predicciones consecutivas, logrando un rendimiento superior a los métodos basados en imágenes y comparable a los modelos 3D completos con un coste computacional reducido.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Este estudio compara cinco modelos de vanguardia para la reconstrucción 3D a partir de una sola imagen en dominios médicos y naturales, revelando que, aunque todos enfrentan una baja superposición volumétrica debido a la ambigüedad de profundidad, SAM3D logra la mejor similitud topológica en datos médicos, lo que subraya la necesidad de adaptación específica del dominio para superar las limitaciones actuales.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

El artículo presenta EchoTorrent, un nuevo esquema de generación de video multimodal en streaming que supera las limitaciones de latencia y estabilidad temporal mediante cuatro innovaciones clave: entrenamiento con múltiples profesores, calibración adaptativa de CFG, forzamiento híbrido de cola larga y refinamiento del decodificador VAE, logrando así una generación autoregresiva rápida con alta consistencia temporal y sincronización audio-labial.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

El artículo presenta GPEReg-Net, un marco de registro de imágenes entre dominios que elimina la necesidad de estimar campos de deformación explícitos mediante la descomposición de la imagen en representaciones invariantes al dominio y estadísticas de apariencia, aprovechando la coherencia temporal a través de un mecanismo de atención codificada por posición para lograr un rendimiento superior y una mayor velocidad en comparación con los métodos existentes.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

OmniCT es un modelo unificado de visión y lenguaje que supera las limitaciones de los enfoques actuales al integrar simultáneamente el análisis de cortes individuales y volúmenes completos de tomografía computarizada mediante mejoras en la consistencia espacial y semántica, logrando un rendimiento superior en tareas clínicas diversas.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Prefer-DAS es un modelo multitarea adaptable a dominios para la segmentación de microscopía electrónica que supera a los métodos existentes al integrar aprendizaje con prompts dispersos y optimización de preferencias locales (LPO, SLPO y UPO), logrando un rendimiento cercano o superior al de modelos supervisados tanto en modos automáticos como interactivos.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

El artículo presenta Hepato-LLaVA, un modelo de lenguaje multimodal especializado que utiliza un mecanismo de atención Sparse Topo-Pack para analizar imágenes de diapositivas completas de carcinoma hepatocelular, junto con un nuevo conjunto de datos validado por expertos, logrando un rendimiento superior en tareas de diagnóstico y descripción patológica.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Este artículo presenta un modelo de explicación para la segmentación de imágenes médicas que utiliza el razonamiento causal y el efecto medio de tratamiento (ATE) para cuantificar la influencia de las regiones de entrada y los componentes de la red, demostrando una mayor fidelidad que las técnicas existentes y revelando heterogeneidades en las estrategias de percepción de diversos modelos fundamentales.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

El artículo propone el marco de Cuantización de Color de Conjuntos de Datos (DCQ), una solución unificada que comprime grandes conjuntos de datos visuales reduciendo la redundancia en el espacio de color mediante la preservación de colores semánticamente importantes y detalles estructurales, logrando así un almacenamiento eficiente sin sacrificar el rendimiento del entrenamiento del modelo.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabajo presenta VII, un marco de jailbreaking sin entrenamiento que explota la capacidad de seguir instrucciones visuales en modelos de generación de video a partir de imágenes para inyectar intenciones maliciosas a través de imágenes de referencia seguras, logrando altas tasas de éxito en ataques contra modelos comerciales de última generación.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

HorizonForge es un marco unificado que permite la edición fotorealista y controlada de escenas de conducción mediante la reconstrucción en Gaussian Splats y mallas, facilitando la inserción de vehículos y trayectorias arbitrarias con consistencia temporal y superando a los métodos actuales en fidelidad y preferencia de usuario.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

← Anterior Siguiente →