PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

Il paper presenta PointAlign, un metodo innovativo di regolarizzazione per l'allineamento a livello di feature che migliora l'efficienza e la preservazione delle informazioni geometriche nei modelli 3D Vision-Language supervisionando esplicitamente i token intermedi delle nuvole di punti, ottenendo risultati significativamente superiori su compiti di classificazione e descrizione 3D.

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

Questo lavoro propone un metodo di compressione avversariale migliorata per la super-risoluzione video reale, che distilla un efficiente modello Transformer 3D in una rete leggera basata su Stable Diffusion 2D con convoluzioni temporali e un nuovo schema di distillazione avversariale a doppio capo, riducendo i parametri del 95% e accelerando l'inferenza di 8 volte mantenendo alta qualità e coerenza temporale.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Questo lavoro introduce FEWTRANS, un benchmark completo con un protocollo di valutazione rigoroso per il trasferimento few-shot, rivelando che la scelta del modello pre-addestrato è il fattore dominante e che il semplice fine-tuning completo spesso supera metodi più complessi grazie a micro-aggiustamenti distribuiti, mentre i modelli multimodali subiscono un crollo delle prestazioni in domini specializzati a causa della rarità linguistica.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

Il paper presenta U-VLM, un modello gerarchico di visione e linguaggio che, attraverso un addestramento progressivo e l'iniezione multi-livello delle caratteristiche visive, supera le prestazioni degli attuali modelli per la generazione automatica di referti radiologici da immagini 3D, dimostrando che un'adeguata pre-addestramento del codificatore visivo è più efficace dell'utilizzo di grandi modelli linguistici pre-addestrati.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Questo studio quantifica il rischio di manipolazione degli esiti elettorali statunitensi tramite esempi avversariali fisici, rivelando un divario tra gli attacchi più efficaci nel dominio digitale e quelli nel dominio fisico e fornendo un quadro probabilistico per determinare il numero di schede necessarie per ribaltare un'elezione.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG