cs.CV articoli | Gist.Science

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

Il paper presenta FEP-Nav, un framework ispirato al Principio dell'Energia Libera che garantisce una navigazione visiva robusta e adattiva in tempo reale minimizzando l'energia variazionale attraverso un meccanismo duale di decodifica top-down e normalizzazione adattiva, permettendo così ai sistemi autonomi di mantenere prestazioni elevate anche in presenza di corruzioni sensoriali.

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

Il paper presenta InstructHumans, un nuovo framework per l'editing delle texture di avatar umani 3D animabili basato su istruzioni testuali, che supera i limiti delle attuali metodologie introducendo una variante modificata del Score Distillation Sampling (SDS-E) per garantire edizioni fedeli al testo mantenendo la coerenza con l'avatar originale.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Il paper presenta EasyAnimate, un framework ad alte prestazioni per la generazione video che combina l'attenzione ibrida a finestre e la retropropagazione delle ricompense per migliorare significativamente efficienza e qualità, ottenendo risultati all'avanguardia.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Motion-Aware Animatable Gaussian Avatars Deblurring

Questo lavoro presenta un metodo innovativo per ricostruire direttamente avatar umani 3D nitidi a partire da video sfocati, sfruttando un modello fisico della sfocatura da movimento e un modello di moto umano per ottimizzare congiuntamente la rappresentazione dell'avatar e i parametri di movimento.

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

Il paper presenta TABE, una nuova pipeline per la segmentazione video amodale zero-shot che utilizza un modello di diffusione video preaddestrato e un adattamento a test-time per ricostruire oggetti completamente occlusi partendo da una singola maschera di query.

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

Questo lavoro propone un framework di pruning strutturale agnostico al modello che, attraverso una maschera differenziabile e un obiettivo di ottimizzazione end-to-end con checkpointing dei gradienti, permette di ridurre fino al 20% i parametri dei modelli di diffusione visiva senza necessità di riaddestramento, preservando le prestazioni e riducendo i costi computazionali.

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

Questo paper propone il framework Flatness-Guided Adaptation (FGA) per i modelli visione-linguaggio, che unisce l'addestramento e l'adattamento al test sfruttando la piattezza del minimo per guidare la selezione dei campioni e migliorare le prestazioni riducendo al contempo il costo computazionale.

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Il paper presenta un framework di manipolazione 3D consapevole della dinamica che integra la modellazione del mondo tridimensionale nell'apprendimento delle policy attraverso tre compiti di auto-supervisione, migliorando significativamente le prestazioni nelle manipolazioni con movimento in profondità senza sacrificare la velocità di inferenza.

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

Il paper introduce MedFuncta, un framework unificato che utilizza campi neurali (NF) per rappresentare in modo continuo e scalabile grandi dataset medici, superando i limiti delle rappresentazioni discrete attraverso un'architettura meta-appresa con supervisione sparsa e rilasciando il dataset MedNF per la ricerca futura.

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

Il paper presenta RapidPoseTriangulation, un nuovo algoritmo in grado di eseguire la triangolazione multi-persona e multi-vista della postura corporea completa in millisecondi, garantendo elevata velocità, generalizzazione su dataset non visti e l'accesso pubblico al codice.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Il paper presenta Noise2Ghost, un nuovo metodo di ricostruzione per l'imaging fantasma basato su deep learning auto-supervisionato che elimina la necessità di dati di riferimento puliti, offrendo una riduzione del rumore superiore e permettendo applicazioni in scenari a bassa luminosità come l'imaging a raggi X di campioni sensibili.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

Il paper propone LMPOcc, un framework plug-and-play che migliora la previsione dell'occupazione 3D locale e la mappatura globale collaborativa integrando efficientemente le memorie a lungo termine con le osservazioni correnti per una comprensione più robusta e scalabile degli ambienti esterni.

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

Il paper presenta PhysLLM, un innovativo framework collaborativo che integra i Large Language Models con componenti specifici per la rPPG, utilizzando strategie come la Text Prototype Guidance e l'algoritmo Dual-Domain Stationary per superare le limitazioni legate all'illuminazione e al movimento, ottenendo così prestazioni all'avanguardia nel rilevamento remoto dei segnali fisiologici.

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

Il paper presenta ReactDance, un framework di diffusione basato su uno spazio latente gerarchico che utilizza la quantizzazione scalare finita gerarchica (HFSQ) e una strategia di campionamento contestuale locale a blocchi (BLC) per generare danze reattive a lungo termine ad alta fedeltà e coerenti.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

Il paper presenta RESAR-BEV, un approccio autoregressivo residuo progressivo ed esplicabile per la fusione camera-radar nella segmentazione BEV, che combina un'architettura a cascata di trasformatori, una rappresentazione robusta dei voxel e una supervisione disaccoppiata per raggiungere prestazioni all'avanguardia (54,0% mIoU) e tempi di esecuzione in tempo reale (14,6 FPS) su scenari di guida complessi.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Il paper presenta DHECA-SuperGaze, un metodo di deep learning che migliora la stima dello sguardo in ambienti non controllati integrando la super-risoluzione e un modulo di attenzione incrociata testa-occhio, correggendo inoltre errori di annotazione nel dataset Gaze360 e ottenendo risultati superiori rispetto allo stato dell'arte.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

Il paper propone OSPO, un framework di ottimizzazione delle preferenze auto-migliorante e centrato sugli oggetti che, senza dati o modelli esterni, utilizza maschere basate sull'attenzione e una perdita SimPO pesata per migliorare significativamente l'allineamento testo-immagine e ridurre le allucinazioni di oggetti nella generazione di immagini.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

Il paper propone EDITOR, un metodo efficace e interpretabile per l'inversione di prompt nei modelli di diffusione testo-immagine che, combinando modelli di descrizione di immagini, ottimizzazione nello spazio latente e conversione embedding-testo, supera le tecniche esistenti in termini di somiglianza visiva, allineamento testuale e generalizzabilità, abilitando nuove applicazioni come la manipolazione concettuale e la segmentazione non supervisionata.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

Il paper introduce HypeVPR, un framework di embedding gerarchico nello spazio iperbolico progettato per migliorare il riconoscimento dei luoghi da prospettive a equirettangolari, sfruttando la capacità di tale spazio di rappresentare strutture gerarchiche per ottenere prestazioni competitive con una maggiore efficienza di ricerca e riduzione dello storage.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

Il paper presenta FLAIR-HUB, il più ampio dataset multimodale annotato ad altissima risoluzione sviluppato dall'IGN per il monitoraggio della copertura del suolo e delle colture, che integra sei diverse fonti di dati satellitari e aerei per ottimizzare modelli di deep learning e fusion multimodale.

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

← Precedente Successivo →