cs.CV artículos | Gist.Science

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Este trabajo presenta FedMEPD, un marco de aprendizaje federado que aborda la heterogeneidad intermodal y la necesidad de personalización en la segmentación de tumores cerebrales mediante codificadores específicos por modalidad y un decodificador de fusión parcialmente personalizado que utiliza anclajes globales y atención cruzada para compensar la falta de modalidades en los clientes.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

El artículo presenta FedAFD, un marco unificado de aprendizaje federado multimodal que mejora el rendimiento personalizado y global mediante una estrategia de alineación adversaria, un módulo de fusión adaptable y un mecanismo de destilación guiado por similitud para abordar la heterogeneidad de datos y modelos.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Este trabajo presenta LocAtViT, una mejora sencilla para los Vision Transformers que incorpora un kernel gaussiano aprendible en la atención para priorizar detalles espaciales locales, logrando así un rendimiento superior en tareas de segmentación sin sacrificar la capacidad de clasificación global ni requerir cambios en el régimen de entrenamiento.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

El artículo presenta FC-VFI, un método de interpolación de frames de video que utiliza modelos de difusión preentrenados con estrategias de modelado temporal y pérdidas específicas para generar videos de alta fidelidad y consistencia a 120 y 240 FPS, preservando tanto los detalles visuales como la coherencia del movimiento.

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

El artículo presenta AdaIAT, un método que mitiga las alucinaciones en los Modelos Grandes de Lenguaje y Visión (LVLM) mediante el aumento adaptivo de la atención hacia el texto generado, logrando así reducir significativamente las alucinaciones sin comprometer la coherencia lingüística ni provocar descripciones repetitivas.

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Este trabajo propone un método de optimización de texturas adversarias para objetos 3D que, mediante renderizado diferenciable y estrategias como la expectativa sobre transformaciones y un currículo de lo grueso a lo fino, supera las limitaciones de los parches 2D al mantener su eficacia contra políticas visuomotoras bajo vistas dinámicas y distancias variables.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Este artículo presenta un conjunto de datos específico y la adaptación de detectores 3D para la detección y seguimiento de personas desde la perspectiva de una grúa aérea con LiDAR, logrando alta precisión en un entorno industrial y cerrando la brecha de dominio con los conjuntos de datos de conducción estándar.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Este trabajo propone un marco de aprendizaje débilmente supervisado basado en prototipos que mejora la interpretabilidad y la fiabilidad del gradado automático del cáncer de próstata al imitar el proceso de razonamiento de los patólogos mediante la comparación de regiones sospechosas con ejemplos clínicamente validados.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

El artículo presenta TimeWarp, un nuevo benchmark que evalúa la robustez de los agentes web frente a cambios en el diseño y la interfaz de usuario, y propone TimeTraj, un algoritmo que utiliza la destilación de planes en múltiples versiones para superar las limitaciones de los métodos actuales y mejorar significativamente el rendimiento de los modelos.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

Este trabajo presenta un marco de preentrenamiento con tareas conscientes de la ubicación que mejora la capacidad de los modelos de visión para detectar cambios clínicos sutiles en imágenes médicas, logrando un rendimiento superior en la respuesta a preguntas visuales sobre diferencias en radiografías de tórax.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

El artículo presenta VisionPangu, un modelo multimodal compacto de 1.7B de parámetros que, mediante la alineación eficiente y el uso de descripciones humanas densas del conjunto de datos DOCCI, logra generar descripciones de imágenes detalladas y semánticamente coherentes sin depender de arquitecturas a gran escala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Este artículo presenta un nuevo modelo de cámara que incorpora un efecto pseudo-perspectiva mediante un parámetro de contracción para mejorar la regresión de modelos 3DMM monocular en imágenes de primer plano, manteniendo la estabilidad de la proyección ortográfica tradicional.

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

El artículo presenta BiEvLight, un marco de aprendizaje multinivel que optimiza conjuntamente la eliminación de ruido en eventos y la mejora de imágenes en condiciones de poca luz mediante un prior guiado por gradientes y una formulación de optimización jerárquica, logrando así superar a los métodos actuales en el conjunto de datos SDE.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

El artículo presenta 3D-RFT, un marco pionero que aplica el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) a la comprensión de escenas 3D basadas en video, optimizando directamente los modelos multimodales mediante funciones de recompensa derivadas de métricas de evaluación para lograr un rendimiento superior al estado del arte en tareas de percepción y razonamiento espacial.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

El artículo presenta VideoHV-Agent, un marco multiagente que mejora la comprensión de videos largos reformulando la tarea como un proceso estructurado de generación y verificación de hipótesis, logrando así un rendimiento superior, mayor interpretabilidad y menor costo computacional al evitar la deriva semántica.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Este trabajo presenta Wallaroo, un modelo autoregresivo sencillo que unifica la comprensión, generación y edición multimodal mediante predicción de tokens siguientes, soportando múltiples resoluciones e idiomas, y demostrando un rendimiento competitivo en diversos benchmarks.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

TAPFormer es un marco basado en transformadores que logra un seguimiento robusto de puntos arbitrarios mediante una fusión asíncrona transitoria de frames RGB y flujos de eventos, superando a los métodos existentes en precisión y adaptabilidad bajo condiciones de iluminación y movimiento diversas.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

El artículo presenta MultiGO++, un marco innovador para la reconstrucción 3D de humanos vestidos a partir de una sola imagen que supera las limitaciones de los métodos existentes mediante una colaboración efectiva entre geometría y textura, lograda a través de una síntesis de texturas multi-fuente, un módulo de extracción de forma consciente de regiones y una red de reconstrucción dual.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Este trabajo presenta Lens2Zernike, un marco de aprendizaje profundo consistente con la física que recupera ciegamente parámetros ópticos a partir de una sola imagen borrosa mediante una estrategia de supervisión multi-tarea en tres dominios ópticos, logrando una recuperación de detalles difractivos superior a los métodos existentes.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Este trabajo presenta un estudio a gran escala sobre la Restauración de Imágenes Generativa (GIR) que, mediante una nueva evaluación multidimensional, revela un cambio de paradigma en los modos de fallo (de la escasez a la sobre-generación de detalles) y propone un nuevo modelo de calidad de imagen alineado con la percepción humana para guiar el desarrollo futuro del campo.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

← Anterior Siguiente →