cs.CV articoli | Gist.Science

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

Questo lavoro propone un framework di apprendimento per il ripristino HDR in imaging modulo che, integrando una regolarizzazione scale-equivariante e una strategia di elevazione delle caratteristiche, risolve le ambiguità tra bordi naturali e discontinuità di avvolgimento, ottenendo prestazioni all'avanguardia.

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Imagine a City: CityGenAgent for Procedural 3D City Generation

Il paper presenta CityGenAgent, un framework guidato dal linguaggio naturale che utilizza un approccio procedurale gerarchico e una strategia di apprendimento in due fasi (SFT e RL) per generare città 3D interattive di alta qualità, garantendo coerenza strutturale e facilitando l'editing semantico.

Zishan Liu, Zecong Tang, RuoCheng Wu + 6 more2026-03-02💻 cs

Erase at the Core: Representation Unlearning for Machine Unlearning

Il paper introduce "Erase at the Core" (EC), un framework agnostico al modello che risolve il problema della "dimenticanza superficiale" applicando l'apprendimento contrastivo e supervisionato a tutti i livelli della rete per garantire la cancellazione effettiva delle informazioni sia a livello di logit che di rappresentazioni interne.

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

PixelRush è un framework di generazione di immagini ad alta risoluzione privo di addestramento che, sfruttando un'innovativa strategia di blending e iniezione di rumore, produce immagini 4K in circa 20 secondi, offrendo un'accelerazione da 10 a 35 volte superiore rispetto ai metodi attuali mantenendo un'elevata fedeltà visiva.

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

Beyond Ground: Map-Free LiDAR Relocalization for UAVs

Il paper propone MAILS, un nuovo framework di relocalizzazione LiDAR senza mappa per UAV che migliora la precisione e la robustezza in scenari di volo reali attraverso l'uso di moduli di attenzione specifici e un nuovo dataset su larga scala.

Hengyu Mu, Jianshi Wu, Yuxin Guo + 5 more2026-03-02⚡ eess

COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception

Il paper presenta COOPERTRIM, un framework adattivo per la percezione cooperativa che riduce drasticamente l'uso della banda sfruttando la continuità temporale e una metrica di incertezza conformale per selezionare dinamicamente le feature rilevanti, mantenendo al contempo prestazioni di accuratezza comparabili.

Shilpa Mukhopadhyay, Amit Roy-Chowdhury, Hang Qiu2026-03-02💻 cs

Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

Il paper presenta Diff-Aid, un metodo leggero e adattivo eseguito durante l'inferenza che migliora l'aderenza ai prompt e la qualità visiva nei modelli di generazione testo-immine rettificati regolando dinamicamente le interazioni tra token testuali e immagini attraverso i blocchi del transformer e le fasi di denoising.

Binglei Li, Mengping Yang, Zhiyu Tan + 2 more2026-03-02💻 cs

SceneTok: A Compressed, Diffusable Token Space for 3D Scenes

Il paper presenta SceneTok, un innovativo tokenizzatore che codifica le scene 3D in un insieme compresso e permutazionalmente invariato di token non strutturati, permettendo una ricostruzione di alta qualità, un rendering da nuove prospettive e una generazione efficiente di scene in pochi secondi, superando le limitazioni delle rappresentazioni spaziali tradizionali.

Mohammad Asim, Christopher Wewer, Jan Eric Lenssen2026-03-02🤖 cs.AI

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

Il paper propone un nuovo framework di distillazione dei dataset multimodali privo di apprendimento che, sfruttando CLIP per l'estrazione di embedding e un decodificatore unCLIP per la sintesi di immagini guidate da prototipi, supera i metodi esistenti garantendo una generalizzazione superiore tra diverse architetture senza richiedere costosi processi di ottimizzazione.

Junhyeok Choi, Sangwoo Mo, Minwoo Chae2026-03-02💻 cs

One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

Il paper introduce One2Scene, un framework innovativo che genera scene 3D esplorabili e geometricamente coerenti partendo da una singola immagine, decomponendo il problema in tre fasi chiave: generazione di viste panoramiche, costruzione di un'impalcatura 3D esplicita tramite Gaussian Splatting e generazione di nuove viste fotorealistiche, superando così le distorsioni geometriche tipiche dei metodi esistenti.

Pengfei Wang, Liyi Chen, Zhiyuan Ma + 3 more2026-03-02💻 cs

Test-Time Training with KV Binding Is Secretly Linear Attention

Questo lavoro dimostra che l'addestramento al momento del test (TTT) con binding KV non è un processo di memorizzazione, ma può essere riformulato come un operatore di attenzione lineare appresa, offrendo semplificazioni architetturali e miglioramenti nell'efficienza.

Junchen Liu, Sven Elflein, Or Litany + 2 more2026-03-02🤖 cs.AI

FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning

Il paper propone FedVG, un nuovo framework di aggregazione per l'Apprendimento Federato che utilizza un set di validazione globale e le norme dei gradienti per guidare l'ottimizzazione, mitigando efficacemente il drift dei client e migliorando le prestazioni in scenari di dati eterogenei.

Alina Devkota, Jacob Thrasher, Donald Adjeroh + 2 more2026-03-02🤖 cs.AI

FlowFixer: Towards Detail-Preserving Subject-Driven Generation

Il paper presenta FlowFixer, un framework di raffinamento per la generazione guidata da soggetto che ripristina i dettagli persi durante il processo di generazione tramite una traduzione diretta da immagine a immagine e un nuovo schema di addestramento auto-supervisionato, superando gli stati dell'arte nel preservare l'alta fedeltà visiva.

Jinyoung Jun, Won-Dong Jang, Wenbin Ouyang + 2 more2026-03-02💻 cs

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

Il paper introduce PhysicEdit, un nuovo framework open-source che supera i limiti delle attuali tecniche di editing immagini statiche integrando un meccanismo di ragionamento duale e un dataset su larga scala per garantire risultati fisicamente plausibili in scenari dinamici complessi.

Liangbing Zhao, Le Zhuo, Sayak Paul + 2 more2026-03-02💻 cs

SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance

Il paper presenta SemVideo, un nuovo framework che ricostruisce video da attività cerebrale fMRI utilizzando una guida semantica gerarchica per risolvere i problemi di coerenza temporale e allineamento degli oggetti presenti nelle metodologie attuali.

Minghan Yang, Lan Yang, Ke Li + 3 more2026-03-02🤖 cs.AI

Don't let the information slip away

Il paper propone il modello Association DETR, che supera le prestazioni degli attuali rilevatori di oggetti come YOLO e RT-DETR sul dataset COCO val2017 integrando efficacemente le informazioni contestuali dello sfondo, finora trascurate.

Taozhe Li, Guansu Wang, Bo Yu + 2 more2026-03-02💻 cs

GFRRN: Explore the Gaps in Single Image Reflection Removal

Il paper presenta la GFRRN, una rete per la rimozione dei riflessi da singole immagini che risolve le lacune semantiche e le inconsistenze delle etichette tramite tecniche di fine-tuning efficiente, un generatore di etichette unificato e nuovi meccanismi di attenzione basati sulla frequenza e agenti dinamici, ottenendo prestazioni superiori allo stato dell'arte.

Yu Chen, Zewei He, Xingyu Liu + 2 more2026-03-02💻 cs

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

Il paper presenta SPATIALALIGN, un framework di auto-miglioramento che potenzia i modelli di generazione video da testo per allinearsi accuratamente alle relazioni spaziali dinamiche specificate nei prompt, utilizzando una nuova metrica geometrica chiamata DSR-SCORE e un processo di ottimizzazione diretto basato su preferenze.

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng2026-03-02💻 cs

WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Il paper propone WARM-CAT, un approccio innovativo per l'Apprendimento Zero-Shot Compositivo che accumula conoscenza multimodale e adatta dinamicamente i prototipi durante il test tramite una coda di priorità riscaldata, ottenendo prestazioni all'avanguardia su nuovi e raffinati dataset di benchmark.

Xudong Yan, Songhe Feng, Jiaxin Wang + 2 more2026-03-02💻 cs

Motion-aware Event Suppression for Event Cameras

Questo lavoro presenta il primo framework per la soppressione di eventi basata sul movimento, un'architettura leggera in tempo reale che segmenta e prevede anticipatamente il moto degli oggetti e della telecamera per filtrare gli eventi dinamici, migliorando significativamente l'accuratezza della segmentazione e le prestazioni delle applicazioni di visione a valle come l'inferenza dei Transformer e la odometria visiva.

Roberto Pellerito, Nico Messikommer, Giovanni Cioffi + 2 more2026-03-02💻 cs

← Precedente Successivo →