Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Il paper propone ParaHydra, un nuovo framework di compressione distribuita di immagini multi-vista che introduce il meccanismo di attenzione OmniParallax per modellare le correlazioni tra le viste, superando significativamente le prestazioni degli stati dell'arte esistenti con un elevato risparmio di bitrate e una ridotta complessità computazionale.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Questo studio introduce l'iniezione di prompt basata su immagini (IPI), un attacco in scatola nera che nasconde istruzioni avversarie all'interno di immagini naturali per manipolare con successo fino al 64% dei modelli linguistici multimodali, evidenziando una nuova vulnerabilità pratica che richiede urgenti contromisure difensive.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Questa tesi presenta un quadro di imaging sul campo basato sulla visione artificiale per la caratterizzazione morfologica degli aggregati da costruzione, sviluppando algoritmi avanzati di segmentazione e ricostruzione 3D che superano i limiti dei metodi tradizionali permettendo l'analisi sia di singole particelle che di ammassi complessi in scenari reali.

Haohang Huang2026-03-05🤖 cs.AI

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Il paper introduce InEdit-Bench, il primo benchmark dedicato alla valutazione della capacità dei modelli generativi multimodali di ragionare su percorsi logici intermedi nell'editing di immagini, rivelando attraverso una valutazione estesa le significative carenze attuali dei modelli esistenti nel gestire scenari complessi che richiedono dinamicità e coerenza causale.

Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang + 6 more2026-03-05🤖 cs.AI

Polyp Segmentation Using Wavelet-Based Cross-Band Integration for Enhanced Boundary Representation

Il paper propone un modello di segmentazione dei polipi che integra rappresentazioni in scala di grigi e RGB attraverso un'interazione coerente nel dominio delle ondelette, sfruttando la maggiore contrasto dei bordi nella scala di grigi per migliorare la precisione nella localizzazione dei confini e superare le limitazioni dei metodi convenzionali basati solo su RGB.

Haesung Oh, Jaesung Lee2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

Il paper propone QD-PCQA, un nuovo framework di adattamento di dominio consapevole della qualità che migliora la generalizzazione nella valutazione della qualità dei nuvoli di punti senza riferimento, superando i limiti delle metodologie esistenti grazie a strategie di allineamento delle caratteristiche ponderate per il ranking e di aumento guidato dalla qualità.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs