cs.CV articoli | Gist.Science

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Il paper introduce VITA, un metodo di apprendimento zero-shot per funzioni di valore che supera i limiti dei modelli visione-linguaggio congelati attraverso l'adattamento al momento dell'inferenza e una strategia di campionamento basata sulla dissimilarità, ottenendo risultati superiori in compiti di manipolazione robotica e nel shaping della ricompensa per l'apprendimento per rinforzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

Il paper introduce VINCIE, un modello basato su trasformatori di diffusione che impara l'editing di immagini in contesto direttamente da video, superando le dipendenze da pipeline specifiche e ottenendo risultati all'avanguardia su benchmark multi-turno.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Il paper introduce NIC-RobustBench, un toolkit open-source che colma il divario nella valutazione della robustezza avversaria dei metodi di compressione neurale delle immagini, offrendo un framework completo per analizzare sia la resilienza dei codec che il loro impatto sulle attività a valle.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Il paper propone ConCM, un framework per l'apprendimento incrementale di classe con pochi esempi che risolve i conflitti di conoscenza attraverso una calibrazione dei prototipi ispirata alla memoria associativa e un adattamento dinamico della struttura delle caratteristiche, ottenendo risultati all'avanguardia su diversi benchmark.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Il paper introduce VisionDrop, un framework di pruning visivo senza addestramento che supera le limitazioni della riduzione guidata dal testo selezionando i token visivi più informativi basandosi esclusivamente sull'attenzione intra-modale, ottenendo così una significativa riduzione della complessità computazionale con una minima perdita di prestazioni.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

Il paper introduce EchoMimicV3, un framework efficiente di soli 1,3 miliardi di parametri che unifica l'animazione umana multi-task e multi-modale attraverso strategie innovative come il "Soup-of-Tasks" e il "Soup-of-Modals", superando i limiti di velocità e costo computazionale delle soluzioni precedenti.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Il paper propone CLiFT, un metodo di rendering neurale che rappresenta le scene tramite "token di campo luminoso compressi", permettendo un rendering efficiente e adattivo che bilancia dimensioni dei dati, qualità e velocità in base al budget computazionale.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Il paper propone SeC, un nuovo framework di segmentazione video basato sulla costruzione progressiva di concetti ad alto livello tramite modelli visione-linguaggio, che supera gli stati dell'arte esistenti e introduce il benchmark SeCVOS per valutare le prestazioni in scenari complessi e semanticamente ricchi.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Questo articolo presenta un quadro unificato di gemelli digitali e robotici che integra simulazioni avanzate e testbed robotici per validare in modo affidabile e modulare i sistemi di guida, navigazione e controllo (GNC) per le operazioni di rendezvous e il volo in formazione nello spazio.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Il paper presenta MonoFusion, un metodo che ricostruisce scene dinamiche da video con viste sparse allineando ricostruzioni monocolari indipendenti per ottenere risultati di alta qualità e coerenti, superando i limiti delle costose configurazioni multi-vista tradizionali.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Il paper propone HGTS-Former, una nuova architettura Transformer basata su ipergrafi gerarchici che migliora l'analisi delle serie temporali multivariate modellando le complesse interazioni tra variabili, ottenendo risultati all'avanguardia anche su un nuovo dataset su larga scala per il riconoscimento dei modi localizzati ai bordi nella fusione nucleare.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Questo lavoro propone un nuovo metodo di simulazione della risonanza magnetica che raggruppa gli isocromati con caratteristiche identiche per condividere i calcoli, riducendo i tempi di elaborazione da 3 a 72 volte rispetto alle tecniche convenzionali.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Questo lavoro propone l'uso di "Causal Delta Embeddings", rappresentazioni invarianti e sparse delle azioni nel spazio latente, per migliorare la robustezza fuori distribuzione nell'apprendimento di rappresentazioni causali da coppie di immagini senza supervisione aggiuntiva.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Il paper presenta Uni-CoT, un framework unificato che combina pianificazione macro e esecuzione micro per abilitare un ragionamento multimodale coerente tra testo e immagini, ottenendo prestazioni all'avanguardia con un addestramento efficiente su 8 GPU.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Il paper propone ImagiDrive, un innovativo framework end-to-end per la guida autonoma che integra un agente basato su modelli visione-linguaggio con un immaginatore di scene basato su modelli del mondo di guida, creando un ciclo unificato di immaginazione e pianificazione che supera le prestazioni degli approcci precedenti su dataset come nuScenes e NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

Il paper introduce CineTrans, un nuovo framework basato su modelli di diffusione mascherati e un dataset specifico (Cine250K) per generare video coerenti multi-scena con transizioni cinematografiche, superando le limitazioni attuali nella sintesi video multi-shot.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Il paper presenta MOON, il primo modello generativo basato su MLLM per l'apprendimento di rappresentazioni multimodali nel commercio elettronico, che supera i limiti delle architetture discriminative esistenti attraverso un modulo MoE guidato, il rilevamento di regioni semantiche chiave e una strategia di campionamento negativo specializzata, supportato dal nuovo benchmark MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Il paper propone un nuovo framework chiamato Next Visual Granularity (NVG) che genera immagini decomponendole in una sequenza strutturata di granularità visiva crescente, dai layout globali ai dettagli fini, ottenendo risultati superiori rispetto alla serie VAR sul dataset ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Il paper presenta ARMed, un nuovo framework di apprendimento per rinforzo che mitiga il collasso semantico delle ricompense per migliorare il ragionamento medico open-ended nei modelli visione-linguaggio, ottenendo risultati superiori su sei benchmark medici.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Il paper propone un framework di apprendimento multimodale disaccoppiato che integra istologia e trascrittomica per la caratterizzazione del cancro, affrontando l'eterogeneità dei dati, l'integrazione multi-scala e la dipendenza da dati accoppiati attraverso strategie innovative di fusione, distillazione e aggregazione dei token.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

← Precedente Successivo →