cs.CV articoli | Gist.Science

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Il paper propone PromptGate, un framework federato adattivo che utilizza prompt VLM dinamici per filtrare efficacemente i dati fuori distribuzione e ottimizzare l'apprendimento attivo in contesti medici aperti, preservando la privacy dei pazienti e massimizzando l'efficienza delle risorse di annotazione.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

Il paper propone ACD-U, un framework di apprendimento asimmetrico che combina co-teaching con architetture eterogenee (CLIP-ViT e CNN) e tecniche di machine unlearning per correggere attivamente gli errori di selezione e migliorare la robustezza nell'addestramento con etichette rumorose.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Questo studio valuta l'efficacia delle visualizzazioni di classe e delle mappe di attivazione per migliorare l'interpretabilità dei modelli transformer nella patologia computazionale, rivelando che tali tecniche riflettono fedelmente la complessità intrinseca dei tessuti e delle sottoclassi tumorali, sebbene l'accordo tra esperti diminuisca con l'aumentare della granularità delle etichette.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

Il paper presenta FreeFly-Thinking, un framework end-to-end che allinea il ragionamento a catena di pensiero con la navigazione continua dei droni in ambienti urbani complessi, superando le limitazioni dei modelli attuali attraverso un nuovo dataset e una strategia di addestramento in due fasi.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

Il paper presenta FastSTAR, un framework di accelerazione senza addestramento che utilizza la potatura dei token spaziotemporali per ridurre significativamente il costo computazionale nella generazione autoregressiva di video mantenendo alta qualità.

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Il paper propone SPCP, un metodo che migliora il rilevamento di dati fuori distribuzione (OOD) incoraggiando i classificatori a basarsi su pattern di contributo dei parametri più densi e orientati ai confini, riducendo così la sovrastima della confidenza tipica dei modelli profondi.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Il paper presenta VINO, un framework di apprendimento auto-supervisionato che, sfruttando un collo di bottiglia strutturale e una distillazione asimmetrica su video densi, disaccoppia efficacemente gli oggetti dallo sfondo per ottenere rappresentazioni robuste e incentrate sulla forma, superando le prestazioni dei metodi precedenti.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

Il paper presenta LightMedSeg, un'architettura di segmentazione medica 3D leggera e modulare che, integrando priors anatomici e meccanismi di routing adattivo, raggiunge prestazioni competitive con i modelli transformer pur richiedendo parametri e risorse computazionali drasticamente inferiori.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

Il paper introduce BATDiff, un modello di diffusione non supervisionato che utilizza una trasformata wavelet bivariate a trous per fornire una guida strutturata cross-scala, migliorando la coerenza delle alte frequenze e riducendo gli artefatti nella super-risoluzione di immagini singole.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Il paper presenta HY-WU, un framework di adattamento basato sulla memoria funzionale che supera i limiti dell'aggiornamento statico dei pesi generando operatori neurali specifici per ogni istanza, permettendo così un apprendimento continuo e una personalizzazione immediata senza sovrascrivere le conoscenze pregresse.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Il paper presenta FabricGen, un framework end-to-end che genera tessuti intrecciati realistici a partire da descrizioni testuali decomponendo il processo nella sintesi di texture macroscopiche tramite modelli di diffusione e di geometrie microscopiche dei fili controllate da un modello linguistico specializzato (WeavingLLM) per rispettare le regole dell'intreccio.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Il paper presenta PresentBench, un benchmark basato su rubriche di valutazione dettagliate per la generazione automatica di slide, che supera i limiti delle valutazioni esistenti offrendo risultati più affidabili e allineati alle preferenze umane, rivelando inoltre le superiori prestazioni di NotebookLM rispetto ad altri metodi.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Il paper propone LEPA, un'architettura predittiva che risolve le discrepanze geometriche nei modelli fondazionali geospaziali apprendendo l'equivarianza per prevedere direttamente le embedding trasformate, superando l'affidabilità dell'interpolazione standard e migliorando significativamente le metriche di recupero.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Il paper presenta le Variational Flow Maps, un framework che risolve il problema della generazione condizionata in un singolo passo per i modelli di flusso, trasformando la condizione da una guida del percorso di campionamento all'apprendimento di un adattatore di rumore iniziale che garantisce la coerenza con le osservazioni e le distribuzioni dei dati.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Questo lavoro introduce BD-VITON, un nuovo dataset di abbigliamento tradizionale bengalese che affronta le sfide strutturali di indumenti come sari e panjabi, e valuta le prestazioni di modelli di prova virtuale rispetto ai benchmark esistenti dominati dall'abbigliamento occidentale.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Il paper presenta MAviS, un assistente conversazionale multimodale specializzato in specie aviarie che, grazie al nuovo dataset MAviS-Dataset e al benchmark MAviS-Bench, supera le prestazioni degli attuali modelli open-source nel riconoscimento, nella descrizione e nel ragionamento su uccelli integrando audio, visione e testo.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Questo articolo propone un metodo di addestramento che combina l'addestramento avversariale con un blocco di smoothing delle mappe di caratteristiche per generare mappe di salienza più stabili, sparse e affidabili, migliorando sia la stabilità tecnica che la percezione umana della fiducia rispetto alle tecniche esistenti.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Il paper introduce StructSAM, un framework di fusione e recupero dei token che preserva struttura e spettro per ottimizzare i Segment Anything Models (SAM) riducendo significativamente i costi computazionali senza compromettere la precisione dei contorni nelle applicazioni naturali e mediche.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

Il paper presenta Faster-HEAL, un framework collaborativo leggero e rispettoso della privacy che risolve il problema dell'eterogeneità dei veicoli autonomi allineando le caratteristiche tramite prompt visivi a basso rango e fusione piramidale, ottenendo prestazioni superiori con un costo computazionale ridotto.

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Questo articolo presenta un framework leggero basato su gemello digitale per il tracciamento dei veicoli e la previsione delle collisioni, progettato per l'implementazione su dispositivi edge che utilizza solo il rilevamento degli oggetti e mappe di percorso offline per raggiungere un'accuratezza dell'88% con un basso costo computazionale.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

← Precedente Successivo →