cs.CV articoli | Gist.Science

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

Il paper presenta SPATIALALIGN, un framework di auto-miglioramento che potenzia i modelli di generazione video da testo per allinearsi accuratamente alle relazioni spaziali dinamiche specificate nei prompt, utilizzando una nuova metrica geometrica chiamata DSR-SCORE e un processo di ottimizzazione diretto basato su preferenze.

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng2026-03-02💻 cs

WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Il paper propone WARM-CAT, un approccio innovativo per l'Apprendimento Zero-Shot Compositivo che accumula conoscenza multimodale e adatta dinamicamente i prototipi durante il test tramite una coda di priorità riscaldata, ottenendo prestazioni all'avanguardia su nuovi e raffinati dataset di benchmark.

Xudong Yan, Songhe Feng, Jiaxin Wang + 2 more2026-03-02💻 cs

Motion-aware Event Suppression for Event Cameras

Questo lavoro presenta il primo framework per la soppressione di eventi basata sul movimento, un'architettura leggera in tempo reale che segmenta e prevede anticipatamente il moto degli oggetti e della telecamera per filtrare gli eventi dinamici, migliorando significativamente l'accuratezza della segmentazione e le prestazioni delle applicazioni di visione a valle come l'inferenza dei Transformer e la odometria visiva.

Roberto Pellerito, Nico Messikommer, Giovanni Cioffi + 2 more2026-03-02💻 cs

Analytical Expression for Spherically Symmetric Photoacoustic Sources: A Unified General Solution (Theoretical Analysis and Derivation)

Questo lavoro presenta una derivazione completa di un'espressione analitica unificata per la pressione acustica generata da sorgenti fotoacustiche a simmetria sferica, fornendo soluzioni specifiche per diverse distribuzioni iniziali e strumenti di simulazione per la progettazione di sistemi di imaging.

Shuang Li, Yibing Wang, Yu Zhang + 1 more2026-03-02🔬 physics.optics

Leveraging large multimodal models for audio-video deepfake detection: a pilot study

Il paper presenta AV-LMMDetect, un modello multimodale su larga scala basato su Qwen 2.5 Omni che, grazie a un addestramento supervisionato su due stadi, raggiunge o supera le prestazioni degli stati dell'arte nella rilevazione di deepfake audio-video su dataset come FakeAVCeleb e Mavos-DD.

Songjun Cao, Yuqi Li, Yunpeng Luo + 2 more2026-03-02💻 cs

Demystifying Action Space Design for Robotic Manipulation Policies

Questo studio sistematico su oltre 13.000 esecuzioni reali dimostra che la progettazione dello spazio degli azioni, in particolare l'adozione di azioni delta e la scelta tra rappresentazioni nello spazio articolare o nello spazio del compito, influenza in modo cruciale l'apprendimento, la stabilità e la generalizzazione delle politiche di manipolazione robotica.

Yuchun Feng, Jinliang Zheng, Zhihao Wang + 5 more2026-03-02💻 cs

DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

Il paper introduce DesignSense, un nuovo framework basato su un dataset di 10.235 coppie di preferenze umane (DesignSense-10k) e un modello di reward specializzato che supera le soluzioni esistenti nella valutazione e nel miglioramento della generazione automatica di layout grafici.

Varun Gopal, Rishabh Jain, Aradhya Mathur + 6 more2026-03-02🤖 cs.AI

SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection

SALIENT è un framework di diffusione condizionale basato su maschere e dominio wavelet che genera volumi CT sintetici accoppiati per migliorare l'addestramento della rilevazione di lesioni rare a lungo coda, garantendo un controllo attributivo, un'efficienza computazionale e prestazioni di rilevazione superiori rispetto ai metodi esistenti.

Yifan Li, Mehrdad Salimitari, Taiyu Zhang + 2 more2026-03-02⚡ eess

Multiprojective Geometry of Compatible Triples of Fundamental and Essential Matrices

Questo lavoro caratterizza la varietà delle terne compatibili di matrici fondamentali ed essenziali calcolando il loro ideale di annullamento omogeneo multiproiettivo e identificando un nuovo insieme di vincoli quartici che risolve un problema aperto nella letteratura sulla visione geometrica.

Timothy Duff, Viktor Korotynskiy, Anton Leykin + 1 more2026-03-02🔢 math

SGDC: Structurally-Guided Dynamic Convolution for Medical Image Segmentation

Il paper propone la SGDC (Structurally-Guided Dynamic Convolution), un nuovo meccanismo che utilizza un ramo di estrazione strutturale supervisionato per guidare la generazione di kernel dinamici, superando i limiti del pooling medio e migliorando significativamente la fedeltà dei contorni e le prestazioni nella segmentazione di immagini mediche.

Bo Shi, Wei-ping Zhu, M. N. S. Swamy2026-03-02⚡ eess

SegReg: Latent Space Regularization for Improved Medical Image Segmentation

Il paper presenta SegReg, un framework di regolarizzazione nello spazio latente integrato in nnU-Net che migliora la generalizzazione di dominio e l'apprendimento continuo nella segmentazione di immagini mediche senza aggiungere parametri o memoria.

Puru Vaish, Amin Ranem, Felix Meister + 3 more2026-03-02⚡ eess

Modelling and Simulation of Neuromorphic Datasets for Anomaly Detection in Computer Vision

Il paper presenta ANTShapes, un nuovo framework di simulazione basato su Unity che genera dataset neuromorfici sintetici configurabili per superare la scarsità di dati reali e supportare compiti di visione artificiale come il rilevamento di anomalie.

Mike Middleton, Teymoor Ali, Hakan Kayan + 6 more2026-03-02🤖 cs.LG

All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark

Questo lavoro propone LIDMark, un framework proattivo unificato che sfrutta un innovativo filigrana basato su landmark e identità per rilevare, localizzare e tracciare in modo robusto i deepfake in un'unica soluzione.

Junjiang Wu, Liejun Wang, Zhiqing Guo2026-03-02💻 cs

Few-Shot Continual Learning for 3D Brain MRI with Frozen Foundation Models

Il documento presenta un approccio di apprendimento continuo few-shot per risonanze magnetiche cerebrali 3D che combina un backbone preaddestrato congelato con moduli LoRA specifici per ogni compito, ottenendo prestazioni bilanciate su segmentazione di tumori e stima dell'età cerebrale senza dimenticare i compiti precedenti e con meno dello 0,1% di parametri addestrabili per task.

Chi-Sheng Chen, Xinyu Zhang, Guan-Ying Chen + 3 more2026-03-02⚡ eess

Automated Dose-Based Anatomic Region Classification of Radiotherapy Treatment for Big Data Applications

Questo studio presenta un software automatizzato che utilizza l'intelligenza artificiale per classificare i piani di radioterapia in base alle regioni anatomiche trattate analizzando direttamente la sovrapposizione della dose, offrendo una soluzione scalabile e affidabile per la curazione di grandi dataset multicentrici senza dipendere da metadati inconsistenti.

Justin Hink, Yasin Abdulkadir, Jack Neylon + 1 more2026-03-02🔬 physics

LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

Il paper presenta LE-NeuS, un framework neuro-simbolico efficiente in termini di latenza per la comprensione video che riduce drasticamente il tempo di inferenza rispetto ai metodi esistenti, preservando al contempo i vantaggi di accuratezza nel ragionamento temporale grazie a tecniche di campionamento adattivo e rilevamento di proposizioni in batch.

Shawn Liang, Sahil Shah, Chengwei Zhou + 5 more2026-03-02💻 cs

No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency

Questo studio presenta il primo metodo per la sintesi di viste cross-sensoriale tra modalità diverse, come RGB e X, che elimina la necessità di una calibrazione complessa utilizzando una strategia di corrispondenza, densificazione e consolidamento in 3D Gaussian Splatting per facilitare la raccolta di dati su larga scala.

Cho-Ying Wu, Zixun Huang, Xinyu Huang + 1 more2026-03-02💻 cs

Evidential Neural Radiance Fields

Il paper introduce gli Evidential Neural Radiance Fields, un approccio probabilistico che integra direttamente la quantificazione dell'incertezza aleatoria ed epistemica nel processo di rendering NeRF senza compromettere la qualità o richiedere un eccessivo carico computazionale.

Ruxiao Duan, Alex Wong2026-03-02🤖 cs.AI

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

Il paper propone CycleBEV, un nuovo framework di regolarizzazione che migliora la segmentazione semantica in vista a uccello (BEV) per la guida autonoma introducendo una rete di trasformazione inversa per garantire la coerenza ciclica tra le viste prospettiche e BEV durante l'addestramento, ottenendo significativi miglioramenti nelle prestazioni senza aumentare la complessità di inferenza.

Jeongbin Hong, Dooseop Choi, Taeg-Hyun An + 2 more2026-03-02🤖 cs.AI

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

Il paper introduce HDFLIM, un framework che allinea modelli di linguaggio e visione preaddestrati e congelati in uno spazio iperdimensionale tramite operazioni simboliche leggere, permettendo la generazione di didascalie immagini efficienti e semanticamente solide senza necessità di un addestramento multimodale intensivo.

Abhishek Dalvi, Vasant Honavar2026-03-02🤖 cs.AI

← Precedente Successivo →