cs.CV articoli | Gist.Science

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Il paper propone un nuovo framework di super-risoluzione zero-shot per la risonanza magnetica (MRI) basato su una rappresentazione esplicita di Gaussiane fisicamente motivate e un rendering volumetrico, che bilancia l'efficienza computazionale e la qualità ricostruttiva senza richiedere dati di addestramento accoppiati.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou WangWed, 11 Ma💻 cs

Decoder-Free Distillation for Quantized Image Restoration

Il paper presenta QDR, un framework di distillazione senza decoder che risolve le sfide dell'addestramento consapevole alla quantizzazione per il ripristino delle immagini, permettendo a modelli Int8 di raggiungere prestazioni vicine a quelle FP32 e un'elevata velocità di inferenza su dispositivi edge.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho LeeWed, 11 Ma💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Questo lavoro presenta un framework interpretabile basato su modelli visione-linguaggio per la generazione e valutazione di dati sintetici nel telerilevamento, introducendo il dataset ARAS400k che dimostra come l'addestramento su dati reali aumentati con dati sintetici superi le prestazioni dei modelli basati solo su dati reali per segmentazione semantica e descrizione di immagini.

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Il paper presenta X-GS, un framework open ed estensibile che unifica le tecniche di 3D Gaussian Splatting con modelli multimodali downstream, permettendo la creazione in tempo reale di mappe 3D semantiche da flussi video non calibrati per abilitare compiti avanzati come il rilevamento di oggetti e la generazione di didascalie.

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Il paper presenta OTPL-VIO, un sistema di odometria visivo-inerziale stereo robusto che combina descrittori profondi senza addestramento per le linee con un'associazione basata sul trasporto ottimo e un pesamento adattivo dell'incertezza, migliorando significativamente accuratezza e stabilità in scenari a bassa texture e con variazioni di illuminazione.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Il paper presenta KV-Lock, un metodo senza addestramento per i modelli di diffusione video basati su DiT che migliora la qualità del primo piano mantenendo la coerenza dello sfondo, regolando dinamicamente il blocco delle chiavi-valori e la scala della guida condizionale in base al rischio di allucinazione.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

Il paper presenta DiffWind, un framework differenziabile basato sulla fisica che unisce ricostruzione video e simulazione per modellare con alta precisione le dinamiche di oggetti mossi dal vento, integrando metodi come MPM e LBM e introducendo il nuovo dataset WD-Objects.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng CuiWed, 11 Ma💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Il paper presenta VarSplat, un sistema SLAM RGB-D basato su 3D Gaussian Splatting che migliora la robustezza nella localizzazione e mappatura apprendendo esplicitamente la varianza di incertezza per ogni gaussiana per guidare l'ottimizzazione verso regioni più affidabili.

Anh Thuan Tran, Jana KoseckaWed, 11 Ma💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Il paper presenta FootMR, un metodo di raffinamento della motion capture dei piedi che, sfruttando dati di motion capture su larga scala e un dataset di valutazione chiamato MOOF, supera le limitazioni delle tecniche attuali migliorando significativamente la precisione della ricostruzione 3D dei movimenti dei piedi in video monoculare.

Tom Wehrbein, Bodo RosenhahnWed, 11 Ma💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Il paper presenta AutoViVQA, un dataset su larga scala per il Visual Question Answering in vietnamita costruito automaticamente, e ne esamina l'efficacia utilizzando architetture basate su transformer e confrontando diverse metriche di valutazione automatica in contesti multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Il paper presenta DRIFT, un modello basato su Transformer che utilizza un'architettura a doppio percorso per fondere efficacemente informazioni locali e globali dai punti cloud 4D dei radar, ottenendo prestazioni superiori nella rilevazione di oggetti e nella stima della strada libera rispetto ai metodi esistenti.

Siqi Pei, Andras Palffy, Dariu M. GavrilaWed, 11 Ma💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Il paper introduce TemporalDoRA, un metodo di adattamento efficiente dei parametri specifico per video che integra un'attenzione temporale nel bottleneck a basso rango per migliorare la robustezza e l'accuratezza nel rispondere a domande su video chirurgici, validando l'approccio sul nuovo dataset REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. HoqueWed, 11 Ma💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Il paper presenta TriFusion-SR, un innovativo framework di diffusione condizionale guidato dalle ondelette che unisce fusione di immagini mediche tri-modali e super-risoluzione in un'unica fase, ottenendo prestazioni all'avanguardia attraverso una calibrazione adattiva delle caratteristiche spaziali e frequenziali.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu TimofteWed, 11 Ma💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Il paper presenta ProGS, un nuovo codec di streaming che organizza i dati di Gaussian Splatting 3D in una struttura ad albero octree per abilitare la codifica progressiva, riducendo lo spazio di archiviazione di 45 volte e migliorando le prestazioni visive del 10% rispetto al formato originale.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

Il paper presenta GSStream, un innovativo sistema di streaming volumetrico basato su 3D Gaussian Splatting che integra la previsione collaborativa del punto di vista e l'adattamento del bitrate tramite apprendimento per rinforzo profondo per ottimizzare la distribuzione di scene in tempo reale riducendo l'uso della banda.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Il paper introduce FrameDiT, un modello di generazione video basato su Diffusion Transformer che utilizza una nuova "Matrix Attention" a livello di fotogramma per bilanciare efficienza e coerenza temporale, ottenendo risultati all'avanguardia rispetto alle tecniche esistenti.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen TranWed, 11 Ma💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Il paper introduce EXPLORE-Bench, un nuovo benchmark basato su video in prima persona per valutare la capacità dei modelli linguistici multimodali di prevedere le conseguenze fisiche a lungo termine di azioni sequenziali in scenari egocentrici, evidenziando un significativo divario rispetto alle prestazioni umane e l'efficacia parziale del ragionamento passo-passo nel colmarlo.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Il paper presenta FetalAgents, il primo sistema multi-agente progettato per orchestrare dinamicamente esperti visivi specializzati al fine di analizzare immagini e video ecografici fetali, generando report clinici strutturati con prestazioni superiori rispetto ai modelli esistenti.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan TianWed, 11 Ma💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Il paper presenta $M^2$ -Occ, un framework innovativo per la previsione dell'occupazione semantica 3D che garantisce resilienza e coerenza strutturale in scenari di guida autonoma con input multivista incompleti, grazie a un modulo di ricostruzione mascherata e a una memoria di caratteristiche che recuperano informazioni mancanti senza compromettere le prestazioni in condizioni ottimali.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Il paper introduce SACA, un nuovo framework di allineamento contrastivo step-aware che risolve le limitazioni degli attuali metodi di addestramento per la navigazione visione-linguaggio in ambienti continui, migliorando la generalizzazione e il recupero dagli errori attraverso una supervisione densa e un'analisi dettagliata dei singoli passaggi.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

← Precedente Successivo →

cs.CV