cs.CV articoli | Gist.Science

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Il paper presenta VSearcher, un agente di ricerca multimodale addestrato tramite apprendimento per rinforzo che trasforma modelli statici in sistemi capaci di eseguire ricerche complesse e multi-turno sul web, integrando testo, immagini e navigazione, e che supera le prestazioni di modelli proprietari su benchmark dedicati.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Il paper propone "Think-as-You-See" (TaYS), un framework unificato che abilita il ragionamento concorrente e in streaming per i Large Vision-Language Models, superando i limiti dei paradigmi batch e interleaved per migliorare le prestazioni di ragionamento e ridurre la latenza nell'analisi video.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ è un framework di editing visivo basato su istruzioni e privo di addestramento che, attraverso un ragionamento cognitivo strutturato in due fasi e un meccanismo di auto-selezione riflessiva, supera le prestazioni degli attuali modelli open-source e chiusi garantendo una coerenza visiva superiore e un'interpretazione chiara delle modifiche.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

Il paper introduce RoboLayout, un'estensione di LayoutVLM che genera scene 3D semanticamente coerenti e fisicamente fattibili per agenti incarnati, integrando vincoli di raggiungibilità differenziabili e una fase di raffinamento locale per ottimizzare la disposizione degli oggetti in base alle capacità fisiche specifiche dell'agente.

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Questo studio propone il primo quadro computazionale multimodale per la prognosi della nefrite lupica pediatrica, che combina dati clinici e istopatologici tramite un Transformer a iniezione clinica e un MAE adattato al dominio, ottenendo un'accuratezza del 90,1% nella previsione della risposta al trattamento utilizzando solo biopsie colorate con PAS.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

Il paper propone SKETCHGAIT, un nuovo framework per il riconoscimento dell'andatura che supera i limiti delle rappresentazioni basate su silhouette e parsing introducendo una modalità visiva "sketch" estratta in modo privo di etichette dai contorni strutturali delle immagini RGB, ottenendo risultati superiori su dataset pubblici.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Questo articolo presenta una pipeline di previsione delle traiettorie guidata dal gemello digitale per incroci urbani V2X, che combina un generatore Bi-LSTM con una funzione di perdita innovativa per garantire previsioni accurate, sicure e conformi alle regole del traffico riducendo le violazioni critiche.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Il paper presenta AutoThinkRAG, un framework che migliora il ragionamento su documenti complessi tramite un router di difficoltà delle query e un'architettura a decoupling funzionale che combina un piccolo modello visivo per l'interpretazione e un LLM per la deduzione, ottenendo prestazioni all'avanguardia con costi ridotti.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Questo lavoro introduce BISE, una strategia che estrae sottoreti prive di pregiudizi da modelli neurali pre-addestrati convenzionali tramite potatura, consentendo una mitigazione efficiente dei bias senza necessità di riaddestramento o dati aggiuntivi.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

Il paper presenta "Thinking with Spatial Code", un nuovo framework che trasforma i video RGB in rappresentazioni 3D esplicite e coerenti nel tempo, permettendo ai modelli linguistici di ragionare su variabili spaziali strutturate e ottenendo risultati all'avanguardia nel benchmark VSI-Bench per il ragionamento fisico.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Questo lavoro propone il primo framework di verifica robusta accoppiata per i rilevatori di punti chiave basati su heatmap, che utilizza un programma lineare intero misto per garantire la stabilità congiunta di tutti i punti chiave, superando i limiti conservativi dei metodi decoupled precedenti.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

DreamCAD è un nuovo framework generativo multimodale che supera le limitazioni dei dati annotati producendo modelli CAD editabili direttamente da supervisione a livello di punti e da un vasto dataset di 1 milione di descrizioni, ottenendo prestazioni all'avanguardia nella generazione di geometrie complesse.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Il paper propone ABRA, un nuovo metodo di generalizzazione di dominio che utilizza l'aumento avversario delle rappresentazioni per correggere gli effetti di batch biologici nelle immagini di screening ad alto contenuto, ottenendo risultati all'avanguardia nella classificazione delle perturbazioni siRNA.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

Il paper propone il Post Fusion Stabilizer (PFS), un modulo leggero che stabilizza le rappresentazioni BEV intermedie nei sistemi di rilevamento 3D multimodali, migliorando significativamente la robustezza rispetto a guasti dei sensori e cambiamenti di dominio senza richiedere modifiche architetturali o riaddestramento.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Il paper introduce CBM-Suite, un framework metodologico che risolve le limitazioni fondamentali dei Concept Bottleneck Models proponendo una metrica basata sull'entropia per valutare la rilevanza dei concetti, un layer non lineare per evitare il bypass del bottleneck, una distillazione guidata per colmare il divario di accuratezza e un'analisi sistematica dell'impatto dei diversi backbones visivi.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Il paper propone l'interpolated FID (iFID), una nuova metrica che interpola le rappresentazioni latenti tra i dati e i loro vicini più prossimi, dimostrando una forte correlazione con la qualità della generazione dei modelli di diffusione e risolvendo il problema della scarsa predittività del reconstruction FID tradizionale.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Questo paper propone l'Implicit Error Counting (IEC), un metodo di apprendimento per rinforzo senza riferimenti che valuta le risposte enumerando gli errori invece di utilizzare rubriche basate su risposte ideali, dimostrando la sua superiorità nel post-training per il virtual try-on su benchmark specifici.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Il paper propone SemVID, un framework di pruning dei token senza addestramento che, preservando le evidenze critiche e la connettività inter-frame attraverso una specifica allocazione semantica, ottimizza l'efficienza e le prestazioni del grounding temporale video mantenendo un'alta accuratezza.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Il paper propone l'uso di primitive di Gabor, che modulano involucri gaussiani con esponenziali complessi per rappresentare efficacemente sia le strutture lisce che i confini netti, combinati con una decomposizione temporale a basso rango per ricostruire immagini di risonanza magnetica cardiaca cine accelerate, superando le prestazioni dei metodi esistenti come la compressione sensoriale e le rappresentazioni neurali implicite.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

← Precedente Successivo →