cs.CV articoli | Gist.Science

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

Il paper presenta pFedMMA, un innovativo framework di apprendimento federato personalizzato che utilizza adattatori multi-modali per ottimizzare i modelli visione-linguaggio su dati decentralizzati, ottenendo un equilibrio superiore tra personalizzazione e generalizzazione rispetto ai metodi esistenti.

Sajjad Ghiasvand, Mahnoosh Alizadeh, Ramtin Pedarsani2026-03-02🤖 cs.LG

Conformal Prediction for Long-Tailed Classification

Il paper propone nuovi metodi di previsione conformale per la classificazione a code lunghe che bilanciano efficacemente la dimensione degli insiemi di previsione e la copertura condizionale per classe, superando il compromesso tradizionale tra insiemi piccoli ma inaffidabili e insiemi troppo grandi.

Tiffany Ding, Jean-Baptiste Fermanian, Joseph Salmon2026-03-02📊 stat

Animal behavioral analysis and neural encoding with transformer-based self-supervised pretraining

Il paper presenta BEAST, un innovativo framework di pre-addestramento auto-supervisionato basato su transformer che, combinando autoencoding mascherato e apprendimento contrastivo temporale, supera la necessità di dati etichettati per migliorare l'analisi comportamentale e la codifica neurale in diverse specie.

Yanchen Wang, Han Yu, Ari Blau + 5 more2026-03-02🧬 q-bio

Fast Learning of Non-Cooperative Spacecraft 3D Models through Primitive Initialization

Questo lavoro propone un metodo per l'apprendimento rapido di modelli 3D di veicoli spaziali non cooperativi che utilizza un'inizializzazione basata su primitive generate da una CNN per ridurre drasticamente i costi computazionali e la dipendenza da pose precise, rendendo così fattibile l'uso della sintesi di nuove viste in ambito spaziale.

Pol Francesch Huc, Emily Bates, Simone D'Amico2026-03-02🤖 cs.LG

DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

Il paper presenta DA-Occ, un framework 2D puro che migliora la previsione dell'occupazione 3D per la guida autonoma integrando una proiezione complementare basata sull'altezza e convoluzioni consapevoli della direzione per bilanciare precisione geometrica ed efficienza computazionale, raggiungendo un mIoU del 39,3% e 27,7 FPS su Occ3D-nuScenes.

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

AutoDebias: Automated Framework for Debiasing Text-to-Image Models

Il paper presenta AutoDebias, un framework automatizzato che utilizza modelli visione-linguaggio e guide di neutralizzazione per identificare e mitigare attacchi backdoor malevoli nei modelli Text-to-Image, riducendo drasticamente il successo degli attacchi senza compromettere la qualità delle immagini generate.

Hongyi Cai, Mohammad Mahdinur Rahman, Mingkang Dong + 7 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

Il paper presenta AMBER-AFNO, un nuovo modello leggero per la segmentazione 3D di immagini mediche che sostituisce l'attenzione self-attention con operatori neurali Fourier adattivi per ottenere una complessità computazionale quasi lineare e prestazioni all'avanguardia su dataset pubblici.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

AnimateScene: Camera-controllable Animation in Any Scene

AnimateScene è un framework unificato che risolve le sfide dell'integrazione tra ricostruzione di scene 3D e animazione umana 4D, garantendo un posizionamento realistico, un allineamento dello stile senza necessità di addestramento e il controllo della traiettoria della camera per generare video animati coerenti e dettagliati in qualsiasi contesto.

Qingyang Liu, Bingjie Gao, Weiheng Huang + 10 more2026-03-02💻 cs

BeeNet: Reconstructing Flower Shapes from Electric Fields using Deep Learning

Questo studio presenta BeeNet, un modello di deep learning che ricostruisce con successo la forma geometrica dei fiori partendo dai loro campi elettrici, dimostrando che gli insetti impollinatori possono percepire dettagli spaziali complessi attraverso l'elettrorecezione.

Jake Turley, Ryan A. Palmer, Isaac V. Chenchiah + 1 more2026-03-02🧬 q-bio

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

Questo paper introduce un nuovo paradigma di apprendimento contrastivo strutturale che, sfruttando le proprietà intrinseche dei diagrammi attraverso funzioni di perdita specializzate e campioni difficili, migliora significativamente la comprensione dei diagrammi nei modelli visione-linguaggio rispetto agli approcci standard come CLIP.

Hiroshi Sasaki2026-03-02🤖 cs.AI

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

Il paper introduce Draw-In-Mind (DIM), un dataset e un modello multimodale unificato che migliorano l'editing delle immagini bilanciando i ruoli tra comprensione e generazione, assegnando al modulo di comprensione la responsabilità progettuale tramite istruzioni esplicitate, ottenendo così prestazioni all'avanguardia nonostante una scala parametrica ridotta.

Ziyun Zeng, David Junhao Zhang, Wei Li + 1 more2026-03-02🤖 cs.AI

MEGS $^{2}$ : Memory-Efficient Gaussian Splatting via Spherical Gaussians and Unified Pruning

Il paper introduce MEGS², un nuovo framework per la sintesi di viste novel che riduce drasticamente il consumo di memoria VRAM sostituendo le armoniche sferiche con lobi gaussiani sferici leggeri e applicando una nuova strategia di pruning unificato, mantenendo al contempo una qualità di rendering paragonabile.

Jiarui Chen, Yikeng Chen, Yingshuang Zou + 5 more2026-03-02🤖 cs.AI

Activation Function Design Sustains Plasticity in Continual Learning

Questo lavoro dimostra che la progettazione di funzioni di attivazione, in particolare attraverso l'introduzione di nuove non-linearità come Smooth-Leaky, è uno strumento fondamentale e leggero per preservare la plasticità e mitigare la perdita di capacità di adattamento nell'apprendimento continuo, senza richiedere capacità aggiuntiva o tuning specifico per task.

Lute Lillo, Nick Cheney2026-03-02🤖 cs.AI

Unsupervised Representation Learning for 3D Mesh Parameterization with Semantic and Visibility Objectives

Questo lavoro presenta un framework differenziabile non supervisionato per la parametrizzazione di mesh 3D che, integrando obiettivi di consapevolezza semantica e visibilità, automatizza la creazione di mappe UV per ridurre gli artefatti e supportare una migliore generazione di texture senza richiedere mappature manuali.

AmirHossein Zamani, Bruno Roy, Arianna Rampini2026-03-02💻 cs

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Il paper introduce Max-V1, un modello visione-linguaggio leggero e potente che riformula la pianificazione della traiettoria per la guida autonoma come previsione di waypoint successivi, ottenendo prestazioni all'avanguardia e una forte capacità di generalizzazione su diversi dataset.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Universal Beta Splatting

Il paper introduce l'Universal Beta Splatting (UBS), un framework unificato che generalizza lo splatting gaussiano 3D utilizzando kernel Beta N-dimensionali anisotropi per il rendering di campi radianti, consentendo una modellazione controllata delle dipendenze spaziali, angolari e temporali con rendering in tempo reale e prestazioni superiori rispetto ai metodi esistenti.

Rong Liu, Zhongpai Gao, Benjamin Planche + 8 more2026-03-02⚡ eess

CLEAR-IR: Clarity-Enhanced Active Reconstruction of Infrared Imagery

Il paper presenta CLEAR-IR, un nuovo approccio basato su un'architettura Deep Multi-scale Aware Overcomplete che ricostruisce immagini a infrarossi pulite da segnali disturbati da emettitori attivi, migliorando la qualità visiva e abilitando compiti robotici complessi in condizioni di scarsa illuminazione senza bisogno di illuminazione a bordo.

Nathan Shankar, Pawel Ladosz, Hujun Yin2026-03-02🤖 cs.LG

The False Promise of Zero-Shot Super-Resolution in Machine-Learned Operators

Questo lavoro dimostra che gli operatori appresi tramite machine learning non riescono a effettuare inferenza "zero-shot" a risoluzioni diverse da quelle di addestramento a causa di aliasing e fragilità, proponendo invece un protocollo di addestramento multi-risoluzione efficiente per garantire una generalizzazione robusta.

Mansi Sakarvadia, Kareem Hegazy, Amin Totounferoush + 4 more2026-03-02🤖 cs.AI

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

Questo studio analizza le rappresentazioni di DINOv2 tramite SAE, rivelando una specializzazione funzionale nei compiti e proponendo l'Ipotesi di Rappresentazione di Minkowski, secondo cui i token visivi sono combinazioni convesse di archetipi organizzati in spazi concettuali piuttosto che semplici vettori sparsi.

Thomas Fel, Binxu Wang, Michael A. Lepori + 8 more2026-03-02🤖 cs.AI

Uncertainty Matters in Dynamic Gaussian Splatting for Monocular 4D Reconstruction

Il paper presenta USplat4D, un nuovo framework di Gaussian Splatting dinamico che stima l'incertezza temporale per ogni primitiva e utilizza un grafo spaziotemporale per guidare l'ottimizzazione, migliorando così la stabilità geometrica e la sintesi di viste estreme nella ricostruzione 4D da input monoculare.

Fengzhi Guo, Chih-Chuan Hsu, Sihao Ding + 1 more2026-03-02🤖 cs.AI

← Precedente Successivo →

cs.CV