Open-World Motion Forecasting

Este trabajo introduce el primer marco de pronóstico de movimiento de clase incremental en un entorno abierto que, mediante estrategias de autoetiquetado y muestreo de replay, mitiga el olvido catastrófico para predecir trayectorias de agentes dinámicos directamente desde imágenes de cámara, permitiendo la adaptación continua de sistemas de conducción autónoma a nuevas clases de objetos.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

El artículo presenta OncoAgent, un agente de IA consciente de las directrices clínicas que genera automáticamente volúmenes tumorales en radioterapia sin necesidad de reentrenamiento, logrando un rendimiento comparable a modelos supervisados y una mayor preferencia clínica gracias a su capacidad de adaptación inmediata a diferentes guías y sitios anatómicos.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

El artículo presenta EvoDriveVLA, un marco innovador de destilación colaborativa percepción-planificación que integra restricciones perceptuales autoancladas y optimización de trayectorias guiada por oráculos para superar las limitaciones de los modelos VLA en la conducción autónoma y lograr un rendimiento superior tanto en evaluaciones de circuito abierto como cerrado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

El artículo presenta TopoOR, un nuevo paradigma que representa las salas de operaciones mediante estructuras topológicas de alto orden para preservar las relaciones grupales y la geometría multimodal, superando así las limitaciones de los grafos tradicionales y mejorando tareas críticas como la detección de violaciones de esterilidad y la predicción de fases quirúrgicas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artículo presenta el Corpus Patrologia Graeca, el primer recurso abierto a gran escala que combina reconocimiento óptico de caracteres (OCR) y anotación lingüística para las ediciones griegas del siglo XIX, logrando una precisión superior a la de los sistemas existentes y proporcionando un corpus de seis millones de tokens para el entrenamiento de modelos futuros.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

El artículo presenta OmniEarth, un nuevo benchmark diseñado para evaluar de manera sistemática y rigurosa las capacidades de percepción, razonamiento y robustez de los modelos de visión y lenguaje en tareas de observación terrestre, revelando mediante una prueba ciega y un conjunto de datos diverso que los modelos actuales aún enfrentan desafíos significativos en contextos geoespaciales complejos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artículo presenta un marco de generación de imágenes a partir de bocetos consciente de los componentes que utiliza una arquitectura de dos etapas con codificación de autoatención y fusión de puertas preservadora de coordenadas para superar las limitaciones de los modelos existentes, logrando resultados superiores en fidelidad y coherencia visual en diversos dominios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

El artículo presenta Context-Nav, un enfoque sin entrenamiento específico que mejora la navegación de instancias mediante la integración de descripciones contextuales completas en la exploración y la verificación de candidatos a través de un razonamiento espacial 3D consciente de la perspectiva, logrando así un rendimiento superior en entornos 3D complejos.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este trabajo investiga la fiabilidad de los Modelos Visuales-Lingüísticos (VLM) como asistentes de conducción, identificando problemas de inconsistencia y razonamiento temporal limitado, y propone el benchmark FutureVQA junto con un método de ajuste auto-supervisado para mejorar la coherencia y la capacidad de inferencia futura sin necesidad de etiquetas temporales.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

El artículo presenta RESBev, un método robusto y plug-and-play que mejora la percepción en vista cenital (BEV) para la conducción autónoma al reformular la recuperación de características corruptas como un problema de predicción semántica latente mediante un modelo de mundo, logrando así una mayor resistencia a degradaciones de sensores y ataques adversarios sin modificar la arquitectura base.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

El artículo presenta DCAU-Net, un nuevo marco de segmentación de imágenes médicas que mejora la precisión y la eficiencia mediante una Atención Cruzada Diferencial para resaltar estructuras discriminativas y reducir la complejidad computacional, junto con una estrategia de Fusión de Características Espacio-Canales para integrar adaptativamente la información semántica y espacial.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudio demuestra que la progresión radiológica de la fibroelastosis pleuroparenquimatosa (PPFE) en poblaciones de cribado de cáncer de pulmón se asocia independientemente con un mayor riesgo de mortalidad y morbilidad respiratoria, lo que sugiere su utilidad como biomarcador de imagen para identificar a individuos de alto riesgo.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs