cs.CV articoli | Gist.Science

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

Il paper presenta DSV, un metodo che accelera l'addestramento di modelli Video DiT su larga scala sfruttando la sparsità dinamica dell'attenzione tramite approssimazione a basso rango e kernel personalizzati, ottenendo un aumento del throughput fino a 3,02 volte senza perdita di qualità.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

Questo articolo propone un metodo per incorporare filigrane robuste nei contenuti generati da modelli di diffusione durante l'inferenza, senza necessità di riaddestramento, garantendo così la rilevazione della generazione e l'identificazione dell'utente anche in presenza di attacchi di rimozione o perturbazioni.

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

Il paper presenta JiSAM, un metodo plug-and-play che combina aumentazione tramite jittering, un backbone consapevole del dominio e un allineamento settoriale basato sulla memoria per ridurre il carico di annotazione dei dati reali e colmare il divario simulazione-realtà, permettendo di ottenere prestazioni di rilevamento 3D paragonabili a quelle ottenute con dati reali completi utilizzando solo il 2,5% di dati etichettati reali.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

Il paper presenta ARPG, un modello autoregressivo innovativo che, attraverso un framework di decodifica disaccoppiato e una generazione parallela casualizzata, supera le limitazioni delle tradizionali sequenze raster per ottenere un'inferenza significativamente più veloce, un minor consumo di memoria e una superiore capacità di generalizzazione zero-shot.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

Questo lavoro propone un nuovo metodo per generare dati sintetici 3D realistici con annotazioni semantiche per la guida autonoma, eliminando le proiezioni intermedie e i modelli decoupled per colmare il divario tra dati reali e simulati, dimostrando che l'uso di questi dati sintetici insieme a quelli reali migliora le prestazioni dei modelli di segmentazione semantica.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

Il paper presenta TextCrafter, un framework per la generazione di testo visivo complesso che integra meccanismi di isolamento e attenzione testuale tramite apprendimento per rinforzo e un modulo di attenzione guidato da citazioni, ottenendo risultati all'avanguardia su benchmark diversificati con risorse computazionali ridotte.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

Il paper presenta KARMMA, un framework di distillazione della conoscenza multimodale per il riconoscimento di azioni egocentriche che garantisce robustezza alla mancanza di modalità e riduce le risorse computazionali, permettendo un'efficace distribuzione su robot senza necessità di riaddestramento.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

Questo studio identifica i parametri ottimali per la generazione di dati sintetici nel matching stereo zero-shot, dimostrando che un dataset creato con queste impostazioni supera le performance di miscele di dataset esistenti e compete con FoundationStereo, fornendo al contempo codice open-source per la ricerca futura.

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

FermatSyn è un nuovo approccio per la sintesi di immagini mediche multimodali che combina un codificatore basato su SAM2, un modulo di downsampling gerarchico e una strategia di scansione a spirale di Fermat all'interno di un Mamba bidirezionale, superando i metodi esistenti nel preservare sia la coerenza anatomica globale che i dettagli locali ad alta fedeltà.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

Questo articolo esamina l'integrazione di metodi basati su grafi nell'analisi di serie temporali di immagini satellitari, presentando una pipeline versatile, una revisione completa e due studi di caso che ne evidenziano il potenziale per la mappatura del suolo e le previsioni delle risorse idriche.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

Il paper presenta MIRAGE, un framework efficiente per il ripristino delle immagini agnostico al degrado che combina una decomposizione funzionale a livello di canale e una regolarizzazione su varietà per ottenere prestazioni all'avanguardia con un elevato compromesso efficienza-prestazioni.

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

Il paper presenta OmniFall, un benchmark unificato e multedomine composto da dati staged, sintetici e "in-the-wild" con annotazioni dense, progettato per valutare e migliorare la robustezza e la generalizzazione dei modelli di rilevamento delle cadute in ambienti reali non controllati.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

Il paper presenta Cora, un nuovo framework di editing delle immagini basato su diffusione in pochi passaggi che, grazie alla correzione del rumore consapevole della corrispondenza e alle mappe di attenzione interpolate, risolve le limitazioni strutturali e di preservazione degli attributi tipiche dei metodi esistenti, garantendo risultati superiori nel trasferimento di texture e nella generazione di nuovi contenuti.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

Il documento presenta ECAM, un modulo basato sull'apprendimento contrastivo che, integrabile nei modelli esistenti di previsione delle traiettorie umane, migliora significativamente la capacità di evitare collisioni con ostacoli ambientali riducendo il tasso di impatto fino al 50%.

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

Il paper propone LLM-EMF, un nuovo approccio per la raccomandazione sequenziale cross-dominio che integra conoscenze di Large Language Models e dati multimodali (testo e immagini) tramite CLIP e meccanismi di attenzione multipla, superando le prestazioni degli stati dell'arte su quattro dataset di e-commerce.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

Il paper propone LTKD, un nuovo framework di knowledge distillation che decompone la funzione di perdita in componenti tra gruppi e intra-gruppo per correggere i pregiudizi del modello insegnante e distillare conoscenze bilanciate su distribuzioni a coda lunga.

Seonghak Kim2026-03-02💻 cs

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

Il paper presenta DyME, un nuovo paradigma di addestramento che potenzia i piccoli modelli visione-linguaggio (SVLM) dotandoli di capacità di ragionamento attraverso una selezione dinamica tra memorizzazione ed esplorazione, integrata da un meccanismo di supervisione visiva sinergica per garantire stabilità e prestazioni superiori in compiti specializzati.

Jiazhen Liu, Yuchuan Deng, Long Chen2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

Il paper introduce SelvaBox, il più grande dataset open-access per il rilevamento delle chiome degli alberi tropicali in immagini da drone ad alta risoluzione, che con oltre 83.000 etichette manuali e risultati di benchmark superiori dimostra come l'addestramento su dati ad alta risoluzione migliori significativamente l'accuratezza e la capacità di generalizzazione dei modelli.

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Concept-based Adversarial Attack: a Probabilistic Perspective

Il paper propone un nuovo framework di attacco avversario basato sui concetti che, adottando una prospettiva probabilistica, genera esempi avversari diversificati mantenendo l'identità del concetto originale, garantendo così maggiore efficienza e preservazione della categoria sottostante rispetto ai metodi tradizionali.

Andi Zhang, Xuan Ding, Steven McDonagh + 1 more2026-03-02🤖 cs.AI

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

Questo lavoro illustra l'uso delle Macchine a Boosting Esplicabili (EBM) in un approccio di Machine Learning guidato dalla conoscenza per identificare le sommità sovrastanti (overshooting tops) nelle immagini satellitari, dimostrando come sia possibile sviluppare algoritmi interpretabili che integrano strategie umane per migliorare l'affidabilità nelle previsioni meteorologiche ad alto rischio.

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

← Precedente Successivo →