OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

El artículo presenta OmniEarth, un nuevo benchmark diseñado para evaluar de manera sistemática y rigurosa las capacidades de percepción, razonamiento y robustez de los modelos de visión y lenguaje en tareas de observación terrestre, revelando mediante una prueba ciega y un conjunto de datos diverso que los modelos actuales aún enfrentan desafíos significativos en contextos geoespaciales complejos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artículo presenta un marco de generación de imágenes a partir de bocetos consciente de los componentes que utiliza una arquitectura de dos etapas con codificación de autoatención y fusión de puertas preservadora de coordenadas para superar las limitaciones de los modelos existentes, logrando resultados superiores en fidelidad y coherencia visual en diversos dominios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

El artículo presenta Context-Nav, un enfoque sin entrenamiento específico que mejora la navegación de instancias mediante la integración de descripciones contextuales completas en la exploración y la verificación de candidatos a través de un razonamiento espacial 3D consciente de la perspectiva, logrando así un rendimiento superior en entornos 3D complejos.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este trabajo investiga la fiabilidad de los Modelos Visuales-Lingüísticos (VLM) como asistentes de conducción, identificando problemas de inconsistencia y razonamiento temporal limitado, y propone el benchmark FutureVQA junto con un método de ajuste auto-supervisado para mejorar la coherencia y la capacidad de inferencia futura sin necesidad de etiquetas temporales.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

El artículo presenta RESBev, un método robusto y plug-and-play que mejora la percepción en vista cenital (BEV) para la conducción autónoma al reformular la recuperación de características corruptas como un problema de predicción semántica latente mediante un modelo de mundo, logrando así una mayor resistencia a degradaciones de sensores y ataques adversarios sin modificar la arquitectura base.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

El artículo presenta DCAU-Net, un nuevo marco de segmentación de imágenes médicas que mejora la precisión y la eficiencia mediante una Atención Cruzada Diferencial para resaltar estructuras discriminativas y reducir la complejidad computacional, junto con una estrategia de Fusión de Características Espacio-Canales para integrar adaptativamente la información semántica y espacial.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudio demuestra que la progresión radiológica de la fibroelastosis pleuroparenquimatosa (PPFE) en poblaciones de cribado de cáncer de pulmón se asocia independientemente con un mayor riesgo de mortalidad y morbilidad respiratoria, lo que sugiere su utilidad como biomarcador de imagen para identificar a individuos de alto riesgo.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudio presenta un análisis exhaustivo y unificado de diversos métodos de imagen no lineal de tiempo de vuelo (ToF NLOS), estableciendo un marco común de formulación y hardware para evaluar sus similitudes, diferencias y limitaciones de rendimiento, con el objetivo de servir como referencia para comparaciones objetivas en futuras investigaciones.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

El artículo presenta GeoSolver, un marco innovador que mejora el razonamiento paso a paso en la interpretación de teledetección mediante el uso de un modelo de recompensa de proceso (GeoPRM) y un algoritmo de aprendizaje por refuerzo (Process-Aware Tree-GRPO) para lograr un escalado robusto en el tiempo de prueba y alcanzar el estado del arte en diversas pruebas.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

El artículo presenta GeoAlignCLIP, un marco unificado que mejora la alineación visión-idioma en teledetección mediante el aprendizaje de consistencia multi-granular y un nuevo conjunto de datos (RSFG-100k), logrando un rendimiento superior en tareas de detalle fino en comparación con los métodos existentes.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Este trabajo introduce el paradigma de Modelado Lenguaje-Panorama (PLM) y el conjunto de datos PanoVQA para escenarios adversos, proponiendo un módulo de atención dispersa panorámica que permite a los modelos de visión-lingüística existentes procesar imágenes de 360° de manera holística, superando las limitaciones de los enfoques basados en imágenes de campo estrecho.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Este artículo propone un método de clasificación de imágenes inspirado en los movimientos sacádicos humanos que utiliza los mapas de atención de un Vision Transformer (DINO) para focalizar el procesamiento en regiones clave, logrando un rendimiento comparable o superior al de la visión completa con mayor eficiencia.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs