cs.CV artículos | Gist.Science

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

El artículo presenta MetaDAT, un enfoque de predicción de trayectorias que combina un marco de meta-aprendizaje para la pre-entrenación con un mecanismo de actualización de modelo adaptativo a los datos durante la prueba, logrando así una adaptación superior y robusta ante cambios de distribución en escenarios complejos.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Este trabajo introduce el primer marco de pronóstico de movimiento de clase incremental en un entorno abierto que, mediante estrategias de autoetiquetado y muestreo de replay, mitiga el olvido catastrófico para predecir trayectorias de agentes dinámicos directamente desde imágenes de cámara, permitiendo la adaptación continua de sistemas de conducción autónoma a nuevas clases de objetos.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

El artículo presenta GIIM, un enfoque novedoso basado en grafos para el diagnóstico médico que mejora la precisión y robustez al modelar simultáneamente las dependencias intra e intervistas de las anomalías y manejar eficazmente los datos incompletos.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

El artículo presenta OncoAgent, un agente de IA consciente de las directrices clínicas que genera automáticamente volúmenes tumorales en radioterapia sin necesidad de reentrenamiento, logrando un rendimiento comparable a modelos supervisados y una mayor preferencia clínica gracias a su capacidad de adaptación inmediata a diferentes guías y sitios anatómicos.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

El artículo presenta EvoDriveVLA, un marco innovador de destilación colaborativa percepción-planificación que integra restricciones perceptuales autoancladas y optimización de trayectorias guiada por oráculos para superar las limitaciones de los modelos VLA en la conducción autónoma y lograr un rendimiento superior tanto en evaluaciones de circuito abierto como cerrado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

El artículo presenta TopoOR, un nuevo paradigma que representa las salas de operaciones mediante estructuras topológicas de alto orden para preservar las relaciones grupales y la geometría multimodal, superando así las limitaciones de los grafos tradicionales y mejorando tareas críticas como la detección de violaciones de esterilidad y la predicción de fases quirúrgicas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artículo presenta el Corpus Patrologia Graeca, el primer recurso abierto a gran escala que combina reconocimiento óptico de caracteres (OCR) y anotación lingüística para las ediciones griegas del siglo XIX, logrando una precisión superior a la de los sistemas existentes y proporcionando un corpus de seis millones de tokens para el entrenamiento de modelos futuros.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

El artículo presenta OmniEarth, un nuevo benchmark diseñado para evaluar de manera sistemática y rigurosa las capacidades de percepción, razonamiento y robustez de los modelos de visión y lenguaje en tareas de observación terrestre, revelando mediante una prueba ciega y un conjunto de datos diverso que los modelos actuales aún enfrentan desafíos significativos en contextos geoespaciales complejos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artículo presenta un marco de generación de imágenes a partir de bocetos consciente de los componentes que utiliza una arquitectura de dos etapas con codificación de autoatención y fusión de puertas preservadora de coordenadas para superar las limitaciones de los modelos existentes, logrando resultados superiores en fidelidad y coherencia visual en diversos dominios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

El artículo presenta "Diagonal Distillation", un método de destilación asimétrica que aprovecha el contexto temporal y modela el flujo óptico para generar videos autoregresivos de alta calidad en tiempo real, logrando una aceleración de 277,3 veces y mitigando la acumulación de errores en secuencias largas.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

El artículo presenta EvoPrompt, un marco innovador que utiliza proyecciones compartidas de modality y una estrategia de entrenamiento evolutivo para adaptar modelos de visión y lenguaje a nuevas tareas con pocos datos sin olvidar el conocimiento preentrenado.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

El artículo presenta SurgFed, un marco de aprendizaje federado multi-tarea que utiliza guías lingüísticas para la selección de canales y la agregación hiperparamétrica, mejorando la segmentación de escenas quirúrgicas y la estimación de profundidad en entornos clínicos heterogéneos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

El artículo presenta Context-Nav, un enfoque sin entrenamiento específico que mejora la navegación de instancias mediante la integración de descripciones contextuales completas en la exploración y la verificación de candidatos a través de un razonamiento espacial 3D consciente de la perspectiva, logrando así un rendimiento superior en entornos 3D complejos.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este trabajo investiga la fiabilidad de los Modelos Visuales-Lingüísticos (VLM) como asistentes de conducción, identificando problemas de inconsistencia y razonamiento temporal limitado, y propone el benchmark FutureVQA junto con un método de ajuste auto-supervisado para mejorar la coherencia y la capacidad de inferencia futura sin necesidad de etiquetas temporales.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

El artículo presenta RESBev, un método robusto y plug-and-play que mejora la percepción en vista cenital (BEV) para la conducción autónoma al reformular la recuperación de características corruptas como un problema de predicción semántica latente mediante un modelo de mundo, logrando así una mayor resistencia a degradaciones de sensores y ataques adversarios sin modificar la arquitectura base.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

El artículo presenta DCAU-Net, un nuevo marco de segmentación de imágenes médicas que mejora la precisión y la eficiencia mediante una Atención Cruzada Diferencial para resaltar estructuras discriminativas y reducir la complejidad computacional, junto con una estrategia de Fusión de Características Espacio-Canales para integrar adaptativamente la información semántica y espacial.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudio demuestra que la progresión radiológica de la fibroelastosis pleuroparenquimatosa (PPFE) en poblaciones de cribado de cáncer de pulmón se asocia independientemente con un mayor riesgo de mortalidad y morbilidad respiratoria, lo que sugiere su utilidad como biomarcador de imagen para identificar a individuos de alto riesgo.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabajo propone una estrategia de entrenamiento post-inicial basado en aprendizaje por refuerzo, que utiliza una optimización de política grupal adaptada (GRPO) y recompensas híbridas para habilitar la generación intercalada de texto e imágenes en modelos unificados sin depender de grandes conjuntos de datos específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

← Anterior Siguiente →