cs.CV artículos | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

El artículo presenta OmniEarth, un nuevo benchmark diseñado para evaluar de manera sistemática y rigurosa las capacidades de percepción, razonamiento y robustez de los modelos de visión y lenguaje en tareas de observación terrestre, revelando mediante una prueba ciega y un conjunto de datos diverso que los modelos actuales aún enfrentan desafíos significativos en contextos geoespaciales complejos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artículo presenta un marco de generación de imágenes a partir de bocetos consciente de los componentes que utiliza una arquitectura de dos etapas con codificación de autoatención y fusión de puertas preservadora de coordenadas para superar las limitaciones de los modelos existentes, logrando resultados superiores en fidelidad y coherencia visual en diversos dominios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

El artículo presenta "Diagonal Distillation", un método de destilación asimétrica que aprovecha el contexto temporal y modela el flujo óptico para generar videos autoregresivos de alta calidad en tiempo real, logrando una aceleración de 277,3 veces y mitigando la acumulación de errores en secuencias largas.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

El artículo presenta EvoPrompt, un marco innovador que utiliza proyecciones compartidas de modality y una estrategia de entrenamiento evolutivo para adaptar modelos de visión y lenguaje a nuevas tareas con pocos datos sin olvidar el conocimiento preentrenado.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

El artículo presenta SurgFed, un marco de aprendizaje federado multi-tarea que utiliza guías lingüísticas para la selección de canales y la agregación hiperparamétrica, mejorando la segmentación de escenas quirúrgicas y la estimación de profundidad en entornos clínicos heterogéneos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

El artículo presenta Context-Nav, un enfoque sin entrenamiento específico que mejora la navegación de instancias mediante la integración de descripciones contextuales completas en la exploración y la verificación de candidatos a través de un razonamiento espacial 3D consciente de la perspectiva, logrando así un rendimiento superior en entornos 3D complejos.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este trabajo investiga la fiabilidad de los Modelos Visuales-Lingüísticos (VLM) como asistentes de conducción, identificando problemas de inconsistencia y razonamiento temporal limitado, y propone el benchmark FutureVQA junto con un método de ajuste auto-supervisado para mejorar la coherencia y la capacidad de inferencia futura sin necesidad de etiquetas temporales.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

El artículo presenta RESBev, un método robusto y plug-and-play que mejora la percepción en vista cenital (BEV) para la conducción autónoma al reformular la recuperación de características corruptas como un problema de predicción semántica latente mediante un modelo de mundo, logrando así una mayor resistencia a degradaciones de sensores y ataques adversarios sin modificar la arquitectura base.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

El artículo presenta DCAU-Net, un nuevo marco de segmentación de imágenes médicas que mejora la precisión y la eficiencia mediante una Atención Cruzada Diferencial para resaltar estructuras discriminativas y reducir la complejidad computacional, junto con una estrategia de Fusión de Características Espacio-Canales para integrar adaptativamente la información semántica y espacial.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudio demuestra que la progresión radiológica de la fibroelastosis pleuroparenquimatosa (PPFE) en poblaciones de cribado de cáncer de pulmón se asocia independientemente con un mayor riesgo de mortalidad y morbilidad respiratoria, lo que sugiere su utilidad como biomarcador de imagen para identificar a individuos de alto riesgo.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabajo propone una estrategia de entrenamiento post-inicial basado en aprendizaje por refuerzo, que utiliza una optimización de política grupal adaptada (GRPO) y recompensas híbridas para habilitar la generación intercalada de texto e imágenes en modelos unificados sin depender de grandes conjuntos de datos específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabajo introduce el conjunto de datos DynHiL-EQA y el marco de entrenamiento DIVRR para abordar los desafíos de la respuesta a preguntas encarnadas en entornos dinámicos mediante la refinación de vistas y la selección de memoria, mejorando la robustez y la eficiencia en comparación con los métodos existentes.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudio presenta un análisis exhaustivo y unificado de diversos métodos de imagen no lineal de tiempo de vuelo (ToF NLOS), estableciendo un marco común de formulación y hardware para evaluar sus similitudes, diferencias y limitaciones de rendimiento, con el objetivo de servir como referencia para comparaciones objetivas en futuras investigaciones.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

El artículo presenta GeoSolver, un marco innovador que mejora el razonamiento paso a paso en la interpretación de teledetección mediante el uso de un modelo de recompensa de proceso (GeoPRM) y un algoritmo de aprendizaje por refuerzo (Process-Aware Tree-GRPO) para lograr un escalado robusto en el tiempo de prueba y alcanzar el estado del arte en diversas pruebas.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

El artículo presenta GeoAlignCLIP, un marco unificado que mejora la alineación visión-idioma en teledetección mediante el aprendizaje de consistencia multi-granular y un nuevo conjunto de datos (RSFG-100k), logrando un rendimiento superior en tareas de detalle fino en comparación con los métodos existentes.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Este trabajo introduce el paradigma de Modelado Lenguaje-Panorama (PLM) y el conjunto de datos PanoVQA para escenarios adversos, proponiendo un módulo de atención dispersa panorámica que permite a los modelos de visión-lingüística existentes procesar imágenes de 360° de manera holística, superando las limitaciones de los enfoques basados en imágenes de campo estrecho.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

El artículo presenta BinaryAttention, un método que binariza las consultas y claves en los transformadores de visión y difusión para lograr una atención de 1 bit mediante operaciones bit a bit y un sesgo aprendible, logrando más del doble de velocidad que FlashAttention2 sin sacrificar la precisión.

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

El artículo presenta ParTY, un marco novedoso que mejora la síntesis de movimiento texto-a-movimiento mediante una red guiada por partes, una conexión textual consciente de las partes y una fusión holística-particular, logrando así generar movimientos corporales coherentes que reflejan con precisión acciones específicas de partes del cuerpo.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Este artículo propone un método de clasificación de imágenes inspirado en los movimientos sacádicos humanos que utiliza los mapas de atención de un Vision Transformer (DINO) para focalizar el procesamiento en regiones clave, logrando un rendimiento comparable o superior al de la visión completa con mayor eficiencia.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs

← Anterior Siguiente →