cs.CV articoli | Gist.Science

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Il paper propone IRTTA, un metodo di adattamento a tempo di test che sfrutta le ricostruzioni intermedie nella tomografia a coerenza ottica per migliorare le prestazioni di segmentazione medica e fornire stime di incertezza senza modificare i modelli esistenti.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Il paper presenta CoIn3D, un framework generalizzabile per il rilevamento 3D di oggetti multi-camera che supera le difficoltà di trasferimento tra configurazioni diverse integrando esplicitamente le discrepanze degli prior spaziali attraverso la modulazione delle feature sensibile allo spazio e l'aumento dei dati orientato alla camera.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Il paper propone CLIP-PZSL, un nuovo framework di apprendimento zero-shot che utilizza CLIP e una strategia di perdita parziale per gestire le etichette ambigue, migliorando progressivamente l'allineamento semantico tra istanze ed etichette per riconoscere classi non viste.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Questo studio presenta un sistema avanzato di rilevamento delle luci blu di emergenza basato su quattro telecamere fisheye e un modello RT-DETR potenziato da un blocco di attenzione al colore, che utilizza il dataset ABLDataset per ottenere un'accuratezza del 94,7% e supportare la sicurezza stradale attraverso l'integrazione in sistemi ADAS multimodali.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

Il paper presenta MI-DETR, un innovativo rilevatore bio-ispirato per piccoli target infrarossi in movimento che integra mappe di movimento derivate da un automa cellulare simile alla retina con pathway di aspetto paralleli, ottenendo prestazioni eccezionali su diversi benchmark senza richiedere supervisione aggiuntiva per il movimento o moduli di allineamento espliciti.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Questo paper introduce UniM, il primo benchmark unificato per l'apprendimento multimodale "any-to-any" che valuta la capacità dei modelli di comprendere e generare input e output intercalati e arbitrari attraverso sette modalità diverse, accompagnato da una suite di valutazione e un modello baseline chiamato UniMA.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Il paper presenta MoRe, una rete feed-forward efficiente basata su un trasformatore che ricostruisce scene 4D dinamiche da video monoculare disaccoppiando il movimento dagli oggetti statici tramite una strategia di attenzione forzata e meccanismi causali raggruppati, superando i limiti computazionali dei metodi di ottimizzazione esistenti.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Il paper propone un nuovo framework per la generazione 4D che supera la carenza di dataset di grandi dimensioni trasferendo prior spaziali e temporali da modelli di diffusione esistenti attraverso un meccanismo di trasferimento distribuzionale ortogonale e una rappresentazione HexPlane spazialmente e temporalmente consapevole.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Questo lavoro propone un nuovo metodo di attribuzione Shapley basato su flussi generativi ottimali che, minimizzando l'energia cinetica lungo geodetiche di Wasserstein-2, garantisce attribuzioni coerenti con la varietà dei dati, risolvendo i problemi di deriva geometrica e offrendo stabilità teorica rispetto agli approcci esistenti.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Il paper propone GEM-TFL, un framework innovativo che colma il divario tra supervisione debole e completa per la localizzazione temporale di falsificazioni, integrando decomposizione guidata da EM, affinamento temporale senza training e un modulo di raffinamento basato su grafi per ottenere risultati più accurati e robusti.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

Il paper introduce Diff-ES, un framework di pruning strutturato per modelli di diffusione che utilizza una ricerca evolutiva per ottimizzare automaticamente i programmi di sparsità per fasi e un routing efficiente dei pesi, ottenendo accelerazioni reali senza duplicare i parametri e preservando la qualità delle immagini.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

Il paper introduce BLINK, un modello ricorrente a spazio latente basato su traiettorie che analizza le interazioni tra cellule NK e tumorali per prevedere l'esito citotossico e fornire una rappresentazione interpretabile dei comportamenti cellulari nel tempo.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Il paper presenta UniPAR, un framework unificato basato su Transformer che supera le limitazioni dei modelli specifici per dataset permettendo a un'unica architettura di elaborare dati eterogenei (RGB, video ed eventi) e di raggiungere prestazioni all'avanguardia nel riconoscimento degli attributi pedonali con una robustezza superiore in condizioni ambientali difficili.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Il paper propone SRasP, un metodo innovativo per l'apprendimento few-shot cross-domain che utilizza perturbazioni di stile avversarie auto-riorientate e un'ottimizzazione multi-obiettivo per migliorare la stabilità e la generalizzazione su domini non visti.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Il paper propone un framework adattivo per i modelli Vision-Language-Action che, ispirandosi alla cognizione umana, ottimizza l'allocazione delle risorse dinamicamente scegliendo tra agire, ragionare o astenersi in base alla complessità del compito, utilizzando con successo solo le embedding visive per rilevare tale complessità con elevata efficienza e affidabilità.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

Il paper propone SSR-GS, un nuovo framework che migliora la ricostruzione di superfici lucide nel Gaussian Splatting modellando le riflessioni speculari dirette e indirette e integrando prior geometriche e visivi per mitigare gli errori causati dalle riflessioni.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Lo studio dimostra che l'uso di tecniche di pre-elaborazione come il ritaglio dei polmoni può ridurre l'apprendimento di scorciatoie razziali nei modelli di diagnosi radiografica mantenendo al contempo l'accuratezza diagnostica, evitando così il compromesso tra equità e prestazioni.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Questo articolo presenta un metodo innovativo per la calibrazione generica di fotocamere che, sfruttando vincoli geometrici e un modello di illuminazione parametrico locale, stima simultaneamente le posizioni delle caratteristiche e le funzioni di diffusione del punto spazialmente variabili per gestire efficacemente le immagini sfocate causate dal movimento.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

Il paper presenta Mario, un framework innovativo che abilita il ragionamento sui grafi multimodali utilizzando modelli linguistici di grandi dimensioni attraverso un design di VLM condizionato al grafo e un addestramento su istruzioni adattivo alle modalità, superando le sfide di coerenza cross-modale e preferenze eterogenee per ottenere prestazioni superiori rispetto agli stati dell'arte.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Il paper presenta Logi-PAR, il primo framework di riconoscimento delle attività dei pazienti che integra regole differenziabili e logica simbolica per inferire esplicitamente le cause dei rischi clinici, fornendo spiegazioni verificabili e superando le prestazioni degli attuali modelli basati su visione e linguaggio.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

← Precedente Successivo →