cs.CV articoli | Gist.Science

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Il paper propone ConCM, un framework per l'apprendimento incrementale di classe con pochi esempi che risolve i conflitti di conoscenza attraverso una calibrazione dei prototipi ispirata alla memoria associativa e un adattamento dinamico della struttura delle caratteristiche, ottenendo risultati all'avanguardia su diversi benchmark.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Il paper introduce VisionDrop, un framework di pruning visivo senza addestramento che supera le limitazioni della riduzione guidata dal testo selezionando i token visivi più informativi basandosi esclusivamente sull'attenzione intra-modale, ottenendo così una significativa riduzione della complessità computazionale con una minima perdita di prestazioni.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

Il paper introduce EchoMimicV3, un framework efficiente di soli 1,3 miliardi di parametri che unifica l'animazione umana multi-task e multi-modale attraverso strategie innovative come il "Soup-of-Tasks" e il "Soup-of-Modals", superando i limiti di velocità e costo computazionale delle soluzioni precedenti.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Il paper propone CLiFT, un metodo di rendering neurale che rappresenta le scene tramite "token di campo luminoso compressi", permettendo un rendering efficiente e adattivo che bilancia dimensioni dei dati, qualità e velocità in base al budget computazionale.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Il paper propone SeC, un nuovo framework di segmentazione video basato sulla costruzione progressiva di concetti ad alto livello tramite modelli visione-linguaggio, che supera gli stati dell'arte esistenti e introduce il benchmark SeCVOS per valutare le prestazioni in scenari complessi e semanticamente ricchi.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Questo articolo presenta un quadro unificato di gemelli digitali e robotici che integra simulazioni avanzate e testbed robotici per validare in modo affidabile e modulare i sistemi di guida, navigazione e controllo (GNC) per le operazioni di rendezvous e il volo in formazione nello spazio.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Il paper presenta MonoFusion, un metodo che ricostruisce scene dinamiche da video con viste sparse allineando ricostruzioni monocolari indipendenti per ottenere risultati di alta qualità e coerenti, superando i limiti delle costose configurazioni multi-vista tradizionali.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Il paper propone HGTS-Former, una nuova architettura Transformer basata su ipergrafi gerarchici che migliora l'analisi delle serie temporali multivariate modellando le complesse interazioni tra variabili, ottenendo risultati all'avanguardia anche su un nuovo dataset su larga scala per il riconoscimento dei modi localizzati ai bordi nella fusione nucleare.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Questo lavoro propone un nuovo metodo di simulazione della risonanza magnetica che raggruppa gli isocromati con caratteristiche identiche per condividere i calcoli, riducendo i tempi di elaborazione da 3 a 72 volte rispetto alle tecniche convenzionali.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Questo lavoro propone l'uso di "Causal Delta Embeddings", rappresentazioni invarianti e sparse delle azioni nel spazio latente, per migliorare la robustezza fuori distribuzione nell'apprendimento di rappresentazioni causali da coppie di immagini senza supervisione aggiuntiva.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Il paper presenta Uni-CoT, un framework unificato che combina pianificazione macro e esecuzione micro per abilitare un ragionamento multimodale coerente tra testo e immagini, ottenendo prestazioni all'avanguardia con un addestramento efficiente su 8 GPU.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Il paper propone ImagiDrive, un innovativo framework end-to-end per la guida autonoma che integra un agente basato su modelli visione-linguaggio con un immaginatore di scene basato su modelli del mondo di guida, creando un ciclo unificato di immaginazione e pianificazione che supera le prestazioni degli approcci precedenti su dataset come nuScenes e NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

Il paper introduce CineTrans, un nuovo framework basato su modelli di diffusione mascherati e un dataset specifico (Cine250K) per generare video coerenti multi-scena con transizioni cinematografiche, superando le limitazioni attuali nella sintesi video multi-shot.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Il paper presenta MOON, il primo modello generativo basato su MLLM per l'apprendimento di rappresentazioni multimodali nel commercio elettronico, che supera i limiti delle architetture discriminative esistenti attraverso un modulo MoE guidato, il rilevamento di regioni semantiche chiave e una strategia di campionamento negativo specializzata, supportato dal nuovo benchmark MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Il paper propone un nuovo framework chiamato Next Visual Granularity (NVG) che genera immagini decomponendole in una sequenza strutturata di granularità visiva crescente, dai layout globali ai dettagli fini, ottenendo risultati superiori rispetto alla serie VAR sul dataset ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Il paper presenta ARMed, un nuovo framework di apprendimento per rinforzo che mitiga il collasso semantico delle ricompense per migliorare il ragionamento medico open-ended nei modelli visione-linguaggio, ottenendo risultati superiori su sei benchmark medici.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Il paper propone un framework di apprendimento multimodale disaccoppiato che integra istologia e trascrittomica per la caratterizzazione del cancro, affrontando l'eterogeneità dei dati, l'integrazione multi-scala e la dipendenza da dati accoppiati attraverso strategie innovative di fusione, distillazione e aggregazione dei token.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Il paper propone TADSR, una rete di diffusione in un solo passo per il super-risoluzione di immagini reali che, sfruttando un encoder VAE e una funzione di perdita consapevoli del tempo, supera i limiti dei metodi esistenti a timestep fisso per ottenere prestazioni all'avanguardia e un controllo flessibile tra fedeltà e realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

Il paper presenta FastAvatar, un framework feedforward unificato che utilizza un Large Gaussian Reconstruction Transformer per ricostruire rapidamente e con alta qualità modelli 3DGS da diverse fonti di dati quotidiane, permettendo un'aggiunta incrementale delle osservazioni senza sprecare i dati di input.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Il paper propone GACD, un metodo di decodifica basato sull'inferenza che utilizza gradienti di primo ordine per stimare e mitigare i bias testuali e visivi, riducendo così le allucinazioni nei modelli linguistici multimodali senza necessità di riaddestramento.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

← Precedente Successivo →