cs.CV articoli | Gist.Science

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

Il paper presenta CIGPose, un framework basato su un'intervento causale e reti neurali grafiche che elimina le correlazioni spurie legate al contesto visivo per migliorare la robustezza e l'accuratezza della stima della posa del corpo intero, ottenendo nuovi risultati state-of-the-art sul dataset COCO-WholeBody.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Il paper presenta MetaDAT, un metodo di previsione delle traiettorie che combina un pre-addestramento meta-learning con un aggiornamento adattivo dei dati durante il test per migliorare l'accuratezza e l'efficienza in scenari con cambiamenti distributivi.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Questo lavoro introduce l'Open-World Motion Forecasting, un nuovo paradigma che supera i limiti degli approcci chiusi permettendo ai veicoli autonomi di prevedere le traiettorie direttamente dalle immagini e di adattarsi continuamente a nuove classi di oggetti senza dimenticare quelle apprese in precedenza, grazie a un framework end-to-end che combina pseudo-etichettatura, modelli visione-linguaggio e strategie di replay innovative.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Il paper presenta GIIM, un nuovo approccio basato su grafi per la diagnosi medica multi-vista che migliora l'accuratezza e la robustezza dei sistemi CADx modellando simultaneamente le dipendenze intra- e inter-vista e gestendo efficacemente i dati mancanti.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Il paper presenta OncoAgent, un agente AI innovativo che traduce le linee guida cliniche testuali in volumi target tridimensionali per la radioterapia in modo zero-shot e senza riaddestramento, ottenendo prestazioni superiori e una maggiore conformità alle linee guida rispetto ai modelli supervisionati tradizionali.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Il paper propone EvoDriveVLA, un innovativo framework di distillazione collaborativa percezione-pianificazione che risolve le instabilità dei modelli Vision-Language-Action per la guida autonoma integrando vincoli percettivi auto-ancorati e ottimizzazione delle traiettorie guidata da un "oracle", ottenendo prestazioni all'avanguardia nelle valutazioni open-loop e closed-loop.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Il paper presenta TopoOR, un nuovo paradigma che utilizza una rappresentazione topologica di ordine superiore per modellare le sale operatorie, superando i limiti delle strutture tradizionali preservando le relazioni complesse e multimodali necessarie per la sicurezza chirurgica e ottenendo risultati superiori in compiti critici come il rilevamento di violazioni della sterilità e la previsione delle azioni.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Il paper presenta il Corpus Patrologia Graeca, la prima risorsa OCR e linguistica aperta su larga scala per le edizioni greche del XIX secolo, ottenuta tramite una pipeline avanzata che raggiunge un'accuratezza eccezionale nel riconoscimento del greco politonico degradato e fornisce sei milioni di token annotati per la ricerca filologica e l'addestramento di modelli di linguaggio.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Il paper introduce OmniEarth, un benchmark completo per valutare le capacità di percezione, ragionamento e robustezza dei modelli visione-linguaggio applicati all'osservazione della Terra, evidenziando attraverso una rigorosa valutazione su 9.275 immagini e 44.210 istruzioni che le attuali soluzioni faticano ancora a gestire compiti geospaziali complessi.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Il paper introduce PruneSID, un metodo senza addestramento per la compressione dei token visivi nei modelli visione-linguaggio che, combinando analisi delle componenti semantiche e soppressione non massima, preserva l'essenza delle informazioni riducendo drasticamente il carico computazionale e migliorando le prestazioni rispetto agli approcci esistenti.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Questo paper propone un nuovo framework a due stadi per la generazione di immagini fotorealistiche da schizzi, basato su un autoencoder con attenzione self-attention, un modulo di fusione che preserva le coordinate e un revisore di affinamento spaziale, che supera le tecniche attuali in fedeltà e coerenza semantica su diversi dataset.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Il paper propone la "Diagonal Distillation", un metodo innovativo che supera i limiti delle tecniche di distillazione esistenti per la generazione video in streaming, combinando una strategia di generazione asimmetrica e la modellazione del flusso ottico per ottenere video coerenti e ad alta fedeltà con un'accelerazione fino a 31 FPS.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Il paper propone EvoPrompt, un nuovo framework che utilizza un proiettore di prompt condiviso tra modalità e una strategia di addestramento evolutiva con regolarizzazione geometrica per guidare l'adattamento dei modelli visione-linguaggio su compiti con pochi dati, garantendo alte prestazioni few-shot senza dimenticare le capacità zero-shot pre-addestrate.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Il paper presenta SurgFed, un framework di apprendimento federato multi-task guidato dal linguaggio che, attraverso la selezione dei canali e l'aggregazione iper-parametrica basate su input testuali, supera le sfide della diversità dei tessuti e dei compiti per migliorare la segmentazione e la stima della profondità nei video chirurgici.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Il paper presenta Context-Nav, un approccio senza addestramento specifico che risolve la navigazione di istanze tramite descrizioni testuali lunghe integrando allineamenti testo-immagine per guidare l'esplorazione globale e un ragionamento spaziale 3D consapevole del punto di vista per verificare i candidati, ottenendo prestazioni all'avanguardia su InstanceNav e CoIN-Bench.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Questo lavoro esamina l'affidabilità dei modelli visione-linguaggio nell'assistenza alla guida, evidenziando le loro carenze nella coerenza delle risposte e nel ragionamento temporale, e propone il benchmark FutureVQA insieme a un metodo di addestramento auto-supervisionato per migliorare tali capacità senza richiedere etichette temporali.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

Il paper presenta RESBev, un metodo plug-and-play che migliora la robustezza della percezione Bird's-Eye-View (BEV) nei sistemi di guida autonoma ricostruendo le caratteristiche corrotte attraverso un modello latente del mondo, garantendo così maggiore sicurezza contro degradazioni dei sensori e attacchi avversari.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Il paper presenta DCAU-Net, un nuovo framework per la segmentazione di immagini mediche che combina un'attenzione incrociata differenziale (DCA) per ridurre la complessità computazionale e un'attenzione spaziale-canale (CSFF) per integrare adattivamente le informazioni semantiche e spaziali, ottenendo così una maggiore accuratezza e robustezza rispetto ai metodi esistenti.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Questo studio dimostra che la progressione radiologica della fibroelastosi pleuroparenchimale (PPFE) nei programmi di screening per il cancro del polmone è associata indipendentemente a un aumento della mortalità e a esiti clinici avversi, suggerendo che la sua valutazione quantitativa possa fungere da biomarcatore utile per identificare individui ad alto rischio respiratorio.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Questo lavoro propone una strategia di post-addestramento basata sul reinforcement learning, che estende l'ottimizzazione della politica relativa di gruppo (GRPO) ai modelli multimodali unificati, per abilitare la generazione intercalata di testo e immagini senza dipendere da grandi dataset specifici, migliorando significativamente la coerenza e la qualità in compiti come il racconto visivo.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

← Precedente Successivo →