cs.CV articoli | Gist.Science

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Questo studio presenta un approccio multi-modello basato su deep learning che integra reti neurali pre-addestrate e personalizzate per migliorare la rilevazione di segnali stradali, veicoli e corsie, nonché il clonaggio comportamentale, al fine di incrementare la robustezza e l'affidabilità dei veicoli autonomi.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Il paper propone DiP, un nuovo framework di apprendimento rappresentazionale per grafi multimodali che utilizza nodi pseudo specifici per modalità e percorsi informativi dinamici per superare le limitazioni delle strutture statiche, garantendo una propagazione dei messaggi adattiva, espressiva ed efficiente.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Il paper presenta ForgeDreamer, un nuovo framework per la generazione 3D da testo in ambito industriale che risolve le sfide di adattamento di dominio e di ragionamento geometrico attraverso un meccanismo di ensemble Multi-Expert LoRA e un approccio di potenziamento geometrico basato su ipergrafi cross-view.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Questo articolo propone nuove strategie di addestramento e funzioni di perdita che riducono l'elenco dei Gaussiani necessari per il rendering di ciascun pixel, accelerando significativamente l'apprendimento dello 3D Gaussian Splatting senza comprometterne la qualità visiva.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Il paper presenta SVOR, un framework robusto che supera le limitazioni delle condizioni reali nella rimozione di oggetti dai video grazie a tre innovazioni chiave (MUSE, DA-Seg e un training curricolare su due stadi), ottenendo risultati all'avanguardia nella stabilità temporale e nella gestione di ombre, movimenti bruschi e maschere difettose.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Questo lavoro propone il primo modello feed-forward per la decomposizione convessa in mondi aperti, apprendendo campi di caratteristiche continui che, tramite un obiettivo auto-supervisionato basato sulla geometria, permettono di scomporre forme 3D complesse in corpi convessi di alta qualità per applicazioni come la rilevazione delle collisioni.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Il paper presenta CogBlender, un framework che permette un intervento continuo e multidimensionale sulle proprietà cognitive (come valenza, arousal, dominanza e memorabilità) nella generazione di immagini da testo, colmando il divario tra contenuto semantico e intento psicologico attraverso l'interpolazione di campi di velocità tra ancoraggi cognitivi definiti.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Il paper presenta MDTrack, un nuovo framework per il tracciamento multimodale che supera i limiti delle strategie di fusione uniformi adottando una fusione adattiva basata su esperti dedicati per ciascuna modalità e una propagazione temporale decoupled tramite due modelli di spazio di stato separati, ottenendo così prestazioni all'avanguardia su cinque benchmark.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Il paper presenta DenoiseSplat, un metodo di feed-forward per lo splatting gaussiano 3D che ricostruisce scene da immagini multiview rumorose superando le prestazioni delle soluzioni esistenti grazie a un nuovo benchmark su larga scala e a un addestramento supervisionato solo da render 2D puliti.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Il paper presenta IntroSVG, un framework che migliora la generazione di grafica vettoriale (SVG) da testo integrando un ciclo chiuso di generazione e critica basato su feedback visivo, che utilizza tecniche di affinamento supervisionato e ottimizzazione delle preferenze per produrre risultati di alta qualità con strutture complesse e allineamento semantico superiore.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Il paper presenta CLoE, un framework di apprendimento della consistenza degli esperti che migliora la segmentazione delle immagini mediche multimodali in presenza di modalità mancanti garantendo un accordo decisionale globale e regionale tra gli esperti e un ricalibrazione delle caratteristiche basata sull'affidabilità.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Il paper presenta NLiPsCalib, un framework di calibrazione efficiente e fisicamente coerente che utilizza la stereo fotometrica con sorgenti luminose vicine per abilitare la ricostruzione 3D ad alta fedeltà di sensori visuotattili curvi attraverso procedure di calibrazione semplici e accessibili.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Il paper presenta SpaceSense-Bench, un benchmark multi-modale su larga scala generato in simulazione che fornisce dati sincronizzati (RGB, profondità e LiDAR) con annotazioni semantiche e di posa per 136 modelli di satelliti, dimostrando come dataset diversificati siano essenziali per migliorare la percezione e la navigazione autonoma delle sonde spaziali.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Il paper presenta OddGridBench, un benchmark controllato che rivela la scarsa sensibilità delle Multimodal Large Language Models alle discrepanze visive fini, e propone OddGrid-GRPO, un framework di apprendimento per rinforzo che ne migliora significativamente la capacità di discriminazione attraverso l'uso di apprendimento curricolare e ricompense consapevoli della distanza spaziale.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Questo articolo presenta il benchmark STAR, un framework di valutazione multi-agente in ambienti a somma zero che rivela come, oltre alla profondità del ragionamento, la capacità di tradurre le strategie in azioni tempestive sia cruciale per le prestazioni dei modelli linguistici in scenari competitivi dinamici.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Il paper propone la Calibrazione Spettrale Predittiva (PSC), un framework senza sorgente che estende l'allineamento del sottospazio al matching spettrale a blocchi per migliorare l'adattamento al test nella regressione di immagini, ottenendo risultati superiori rispetto alle basi esistenti, specialmente in presenza di forti spostamenti distribuzionali.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Il paper propone un framework di steganografia d'immagine robusto e provabilmente sicuro basato sull'ottimizzazione iterativa nello spazio latente, che migliora significativamente l'accuratezza dell'estrazione del messaggio sotto compressione e vari processi di elaborazione delle immagini mantenendo al contempo la sicurezza teorica.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Il documento presenta EPPINN, un nuovo framework che integra l'apprendimento evidenziale con le reti neurali informate dalla fisica per stimare i parametri di perfusione cerebrale nella risonanza magnetica per ictus ischemico acuto, permettendo una quantificazione dell'incertezza e migliorando sia l'accuratezza che l'affidabilità rispetto ai metodi esistenti.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

← Precedente Successivo →