cs.CV articoli | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Il paper introduce OmniEarth, un benchmark completo per valutare le capacità di percezione, ragionamento e robustezza dei modelli visione-linguaggio applicati all'osservazione della Terra, evidenziando attraverso una rigorosa valutazione su 9.275 immagini e 44.210 istruzioni che le attuali soluzioni faticano ancora a gestire compiti geospaziali complessi.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Il paper introduce PruneSID, un metodo senza addestramento per la compressione dei token visivi nei modelli visione-linguaggio che, combinando analisi delle componenti semantiche e soppressione non massima, preserva l'essenza delle informazioni riducendo drasticamente il carico computazionale e migliorando le prestazioni rispetto agli approcci esistenti.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Questo paper propone un nuovo framework a due stadi per la generazione di immagini fotorealistiche da schizzi, basato su un autoencoder con attenzione self-attention, un modulo di fusione che preserva le coordinate e un revisore di affinamento spaziale, che supera le tecniche attuali in fedeltà e coerenza semantica su diversi dataset.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Il paper propone la "Diagonal Distillation", un metodo innovativo che supera i limiti delle tecniche di distillazione esistenti per la generazione video in streaming, combinando una strategia di generazione asimmetrica e la modellazione del flusso ottico per ottenere video coerenti e ad alta fedeltà con un'accelerazione fino a 31 FPS.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Il paper propone EvoPrompt, un nuovo framework che utilizza un proiettore di prompt condiviso tra modalità e una strategia di addestramento evolutiva con regolarizzazione geometrica per guidare l'adattamento dei modelli visione-linguaggio su compiti con pochi dati, garantendo alte prestazioni few-shot senza dimenticare le capacità zero-shot pre-addestrate.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Il paper presenta SurgFed, un framework di apprendimento federato multi-task guidato dal linguaggio che, attraverso la selezione dei canali e l'aggregazione iper-parametrica basate su input testuali, supera le sfide della diversità dei tessuti e dei compiti per migliorare la segmentazione e la stima della profondità nei video chirurgici.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Il paper presenta Context-Nav, un approccio senza addestramento specifico che risolve la navigazione di istanze tramite descrizioni testuali lunghe integrando allineamenti testo-immagine per guidare l'esplorazione globale e un ragionamento spaziale 3D consapevole del punto di vista per verificare i candidati, ottenendo prestazioni all'avanguardia su InstanceNav e CoIN-Bench.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Questo lavoro esamina l'affidabilità dei modelli visione-linguaggio nell'assistenza alla guida, evidenziando le loro carenze nella coerenza delle risposte e nel ragionamento temporale, e propone il benchmark FutureVQA insieme a un metodo di addestramento auto-supervisionato per migliorare tali capacità senza richiedere etichette temporali.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

Il paper presenta RESBev, un metodo plug-and-play che migliora la robustezza della percezione Bird's-Eye-View (BEV) nei sistemi di guida autonoma ricostruendo le caratteristiche corrotte attraverso un modello latente del mondo, garantendo così maggiore sicurezza contro degradazioni dei sensori e attacchi avversari.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Il paper presenta DCAU-Net, un nuovo framework per la segmentazione di immagini mediche che combina un'attenzione incrociata differenziale (DCA) per ridurre la complessità computazionale e un'attenzione spaziale-canale (CSFF) per integrare adattivamente le informazioni semantiche e spaziali, ottenendo così una maggiore accuratezza e robustezza rispetto ai metodi esistenti.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Questo studio dimostra che la progressione radiologica della fibroelastosi pleuroparenchimale (PPFE) nei programmi di screening per il cancro del polmone è associata indipendentemente a un aumento della mortalità e a esiti clinici avversi, suggerendo che la sua valutazione quantitativa possa fungere da biomarcatore utile per identificare individui ad alto rischio respiratorio.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Questo lavoro propone una strategia di post-addestramento basata sul reinforcement learning, che estende l'ottimizzazione della politica relativa di gruppo (GRPO) ai modelli multimodali unificati, per abilitare la generazione intercalata di testo e immagini senza dipendere da grandi dataset specifici, migliorando significativamente la coerenza e la qualità in compiti come il racconto visivo.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Il paper introduce DynHiL-EQA, un nuovo dataset per la risposta a domande in ambienti embodied dinamici, e propone DIVRR, un framework senza addestramento che migliora la robustezza e l'efficienza inferenziale attraverso la raffinazione delle viste e la selezione adattiva della memoria.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Questo studio presenta un'analisi completa e comparativa di diversi metodi di imaging non in linea di vista (NLOS) basati sul tempo di volo, unificandone la formulazione teorica e l'hardware per valutarne le prestazioni, le limitazioni e le somiglianze in condizioni sperimentali controllate.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Il paper presenta GeoSolver, un nuovo framework che migliora il ragionamento passo-passo nei modelli visione-linguaggio per il telerilevamento attraverso un dataset di supervisione processuale su larga scala, un modello di ricompensa granulare e un algoritmo di apprendimento per rinforzo, ottenendo prestazioni all'avanguardia e una scalabilità durante il test-time.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Il paper presenta GeoAlignCLIP, un framework unificato che migliora l'allineamento visione-linguaggio fine-granulare nelle immagini di telerilevamento attraverso l'apprendimento di allineamenti semantici multi-granulari e la coerenza intra-modale, supportato dal nuovo dataset RSFG-100k, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi benchmark.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Questo lavoro introduce il paradigma di Panorama-Language Modeling (PLM) e il dataset PanoVQA per gestire scene panoramiche avverse, proponendo un modulo di attenzione sparsa che permette ai modelli visione-linguaggio esistenti di comprendere l'intero contesto 360° senza riaddestramento, superando i limiti della semplice aggregazione di immagini a campo visivo ristretto.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Il paper presenta BinaryAttention, un metodo innovativo che utilizza l'attenzione QK a 1 bit per i Transformer visivi e di diffusione, sostituendo i prodotti scalari in virgola mobile con operazioni bitwise e tecniche di addestramento avanzate per ottenere un'accelerazione superiore a 2x rispetto a FlashAttention2 mantenendo o superando l'accuratezza dei modelli full-precision.

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Il paper presenta ParTY, un nuovo framework che migliora la sintesi di movimenti umani da testo guidando la generazione globale attraverso parti specifiche del corpo, risolvendo così le limitazioni di coerenza e allineamento semantico dei metodi esistenti.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Questo studio propone un metodo di classificazione delle immagini ispirato ai movimenti saccadici oculari umani, che utilizza le mappe di attenzione del modello Vision Transformer DINO per selezionare e processare solo le regioni visive più informative, ottenendo prestazioni pari o superiori all'elaborazione dell'immagine completa con maggiore efficienza.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs

← Precedente Successivo →