cs.CV articoli | Gist.Science

UniField: A Unified Field-Aware MRI Enhancement Framework

Il paper presenta UniField, un framework unificato per il potenziamento delle immagini MRI che sfrutta modelli fondazionali 3D e un meccanismo di rettifica spettrale consapevole del campo magnetico per superare i limiti di generalizzazione e scarsità dei dati, supportato dal rilascio di un nuovo dataset multi-campo su larga scala.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

Il paper presenta HelixTrack, un metodo basato su eventi che traccia oggetti simili a eliche e ne stima il regime di rotazione (RPM) con latenza microsecondica, superando i limiti dei metodi basati su fotogrammi e introducendo il nuovo dataset TQE per validare le prestazioni in scenari di movimento ego e distrattori.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Il paper presenta BridgeDiff, un framework basato su diffusione che supera le limitazioni dei metodi precedenti per la sintesi di indumenti piatti partendo da osservazioni umane, integrando moduli specifici per collegare l'aspetto globale e le strutture piatte e ottenendo così risultati all'avanguardia nella ricostruzione di indumenti virtuali.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Il paper propone RAE-NWM, un modello di navigazione che opera nello spazio delle rappresentazioni visive dense di DINOv2 invece che in uno spazio latente compresso, utilizzando un Conditional Diffusion Transformer per migliorare la stabilità strutturale e la precisione delle azioni durante la pianificazione.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Il paper propone il modulo Geometric Semantic Decoupling (GSD), una soluzione priva di parametri che migliora la generalizzabilità dei rilevatori di immagini generati dall'IA disaccoppiando le rappresentazioni semantiche dai tracciati forensi, superando così il problema del "semantic fallback" e ottenendo prestazioni superiori nelle valutazioni cross-dataset.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Il paper presenta Poly-DETR, un modello Transformer che riformula la segmentazione di istanze come regressione sparsa di vertici tramite una rappresentazione polare, superando i limiti delle predizioni dense di pixel per ottenere prestazioni superiori e un minore consumo di memoria, specialmente in scenari ad alta risoluzione e su oggetti di forma regolare.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Questo studio presenta un approccio multi-modello basato su deep learning che integra reti neurali pre-addestrate e personalizzate per migliorare la rilevazione di segnali stradali, veicoli e corsie, nonché il clonaggio comportamentale, al fine di incrementare la robustezza e l'affidabilità dei veicoli autonomi.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Il paper propone DiP, un nuovo framework di apprendimento rappresentazionale per grafi multimodali che utilizza nodi pseudo specifici per modalità e percorsi informativi dinamici per superare le limitazioni delle strutture statiche, garantendo una propagazione dei messaggi adattiva, espressiva ed efficiente.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Il paper presenta ForgeDreamer, un nuovo framework per la generazione 3D da testo in ambito industriale che risolve le sfide di adattamento di dominio e di ragionamento geometrico attraverso un meccanismo di ensemble Multi-Expert LoRA e un approccio di potenziamento geometrico basato su ipergrafi cross-view.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Questo articolo propone nuove strategie di addestramento e funzioni di perdita che riducono l'elenco dei Gaussiani necessari per il rendering di ciascun pixel, accelerando significativamente l'apprendimento dello 3D Gaussian Splatting senza comprometterne la qualità visiva.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Il paper presenta SVOR, un framework robusto che supera le limitazioni delle condizioni reali nella rimozione di oggetti dai video grazie a tre innovazioni chiave (MUSE, DA-Seg e un training curricolare su due stadi), ottenendo risultati all'avanguardia nella stabilità temporale e nella gestione di ombre, movimenti bruschi e maschere difettose.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Questo lavoro propone il primo modello feed-forward per la decomposizione convessa in mondi aperti, apprendendo campi di caratteristiche continui che, tramite un obiettivo auto-supervisionato basato sulla geometria, permettono di scomporre forme 3D complesse in corpi convessi di alta qualità per applicazioni come la rilevazione delle collisioni.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Il paper presenta CogBlender, un framework che permette un intervento continuo e multidimensionale sulle proprietà cognitive (come valenza, arousal, dominanza e memorabilità) nella generazione di immagini da testo, colmando il divario tra contenuto semantico e intento psicologico attraverso l'interpolazione di campi di velocità tra ancoraggi cognitivi definiti.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Il paper presenta MDTrack, un nuovo framework per il tracciamento multimodale che supera i limiti delle strategie di fusione uniformi adottando una fusione adattiva basata su esperti dedicati per ciascuna modalità e una propagazione temporale decoupled tramite due modelli di spazio di stato separati, ottenendo così prestazioni all'avanguardia su cinque benchmark.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Il paper presenta DenoiseSplat, un metodo di feed-forward per lo splatting gaussiano 3D che ricostruisce scene da immagini multiview rumorose superando le prestazioni delle soluzioni esistenti grazie a un nuovo benchmark su larga scala e a un addestramento supervisionato solo da render 2D puliti.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Il paper presenta IntroSVG, un framework che migliora la generazione di grafica vettoriale (SVG) da testo integrando un ciclo chiuso di generazione e critica basato su feedback visivo, che utilizza tecniche di affinamento supervisionato e ottimizzazione delle preferenze per produrre risultati di alta qualità con strutture complesse e allineamento semantico superiore.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Il paper presenta CLoE, un framework di apprendimento della consistenza degli esperti che migliora la segmentazione delle immagini mediche multimodali in presenza di modalità mancanti garantendo un accordo decisionale globale e regionale tra gli esperti e un ricalibrazione delle caratteristiche basata sull'affidabilità.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Il paper presenta NLiPsCalib, un framework di calibrazione efficiente e fisicamente coerente che utilizza la stereo fotometrica con sorgenti luminose vicine per abilitare la ricostruzione 3D ad alta fedeltà di sensori visuotattili curvi attraverso procedure di calibrazione semplici e accessibili.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

← Precedente Successivo →