cs.CV artículos | Gist.Science

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

El artículo presenta TemporalDoRA, un método de ajuste fino eficiente en parámetros diseñado para mejorar la robustez y la precisión temporal en la respuesta a preguntas sobre videos quirúrgicos mediante la integración de atención temporal dentro de la adaptación de bajo rango, validado con el nuevo conjunto de datos REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

El artículo presenta TriFusion-SR, un marco de difusión condicional guiado por wavelets que realiza de forma conjunta la fusión de imágenes médicas tri-modales y la superresolución, superando a los métodos existentes mediante la descomposición de frecuencias y la calibración de coeficientes para lograr mejoras significativas en la calidad perceptual y métricas de precisión.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

El artículo presenta ProGS, un nuevo códec que organiza los datos de 3D Gaussian Splatting en una estructura de octree para habilitar una codificación progresiva, logrando una reducción de almacenamiento de 45 veces y una mejora del 10% en la fidelidad visual.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

El artículo presenta GSStream, un sistema innovador de transmisión de escenas volumétricas basado en 3D Gaussian Splatting que integra predicción de visuales colaborativa y adaptación de bitrate mediante aprendizaje por refuerzo profundo para optimizar la calidad visual y el uso de la red.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

El artículo presenta FrameDiT, un modelo de generación de video que introduce el mecanismo de atención matricial a nivel de cuadro para equilibrar la eficiencia y la coherencia temporal, logrando resultados de vanguardia al preservar la estructura espacio-temporal global sin comprometer el rendimiento computacional.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

El artículo presenta FetalAgents, el primer sistema multiagente diseñado para analizar imágenes y videos de ecografías fetales mediante la coordinación dinámica de expertos visuales especializados, logrando un rendimiento superior en diagnóstico, medición y segmentación, además de generar informes clínicos estructurados a partir de flujos de video completos.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

El artículo presenta $M^2$ -Occ, un marco innovador que mejora la predicción de ocupación semántica 3D para la conducción autónoma al manejar entradas de cámaras incompletas mediante la reconstrucción de vistas faltantes y el uso de una memoria de características, logrando así una mayor robustez y precisión incluso en escenarios con múltiples vistas perdidas.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artículo presenta SACA, un marco de alineación contrastiva sensible a los pasos que mejora la navegación visión-lenguaje en entornos continuos al extraer supervisión densa de trayectorias imperfectas para resolver los problemas de errores acumulativos y recompensas dispersas que limitan a los modelos actuales.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

El artículo presenta ENIGMA-360, un nuevo conjunto de datos sincronizado de vistas egocéntrica y exocéntrica grabado en un entorno industrial real y etiquetado para facilitar la comprensión del comportamiento humano mediante tareas como la segmentación temporal de acciones, el reconocimiento de pasos clave y la detección de interacciones persona-objeto.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

El artículo presenta LAP, un modelo de planificación que utiliza un modelo de lenguaje-visión para convertir observaciones visuales en descripciones textuales más distintivas y generar secuencias de acciones mediante un modelo de difusión, logrando así un rendimiento superior en la planificación de procedimientos para videos instruccionales.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser es un método sin entrenamiento que genera y estiliza logotipos multilingües integrando la estructura de los caracteres mediante mapas de atención inyectados en transformadores de difusión multimodales, evitando así distorsiones geométricas y la necesidad de reentrenamiento.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

El artículo presenta PanoAffordanceNet, un marco innovador y un nuevo conjunto de datos (360-AGD) diseñados para superar los desafíos de la percepción global en entornos interiores de 360°, permitiendo una fundamentación holística de las affordances mediante la corrección de distorsiones geométricas y la alineación semántica a escala.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

El artículo propone "Ego", un método eficiente que personaliza modelos de visión y lenguaje sin etapas de entrenamiento adicionales, extrayendo tokens visuales de atención interna como memoria para reconocer conceptos específicos en imágenes y videos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Este artículo demuestra que las defensas actuales contra puertas traseras son insuficientes porque eliminar el desencadenante original no elimina la vulnerabilidad, ya que existen "desencadenantes alternativos" que explotan la dirección latente de la puerta trasera en el espacio de características, lo que sugiere la necesidad de desarrollar defensas que se enfoquen en la representación en lugar de en los desencadenantes de entrada.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Este trabajo demuestra que los conceptos ausentes que activan neuronas son comunes en los modelos de IA, que los métodos explicativos estándar no los detectan, y propone extensiones sencillas para revelar estas "ausencias codificadas" y mejorar la interpretabilidad y el desesgo de los modelos.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Este artículo presenta DCPGN, un nuevo método de adaptación en tiempo de prueba que utiliza un módulo de crecimiento de prototipos multi-etiqueta y una consistencia de doble pista visual-textual para anticipar acciones y cerrar la brecha entre las vistas egocéntrica y exocéntrica sin necesidad de datos de entrenamiento en el objetivo.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Este trabajo introduce la tarea de aprendizaje audio-visual de granularidad fina denominada RA-SSU, respaldada por dos nuevos conjuntos de datos (f-Music y f-Lifescene) y el modelo SSUFormer, para lograr una comprensión detallada, a nivel de marco y consciente de la región de las fuentes sonoras.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

El artículo presenta ConfCtrl, un marco de interpolación de video consciente de la confianza que permite a los modelos de difusión generar vistas novedosas geométricamente consistentes y visualmente plausibles a partir de solo dos imágenes, superando las limitaciones de los métodos existentes mediante una proyección ponderada por confianza y un mecanismo de corrección residual inspirado en el filtro de Kalman para manejar grandes cambios de perspectiva.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

El artículo presenta BrainSTR, un marco de aprendizaje contrastivo espaciotemporal que modela redes cerebrales dinámicas interpretables mediante la identificación de fases críticas y subredes relacionadas con enfermedades, mejorando así el diagnóstico neuropsiquiátrico en trastornos como el autismo, el trastorno bipolar y la depresión mayor.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

← Anterior Siguiente →

cs.CV