cs.CV articoli | Gist.Science

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Questo lavoro propone un nuovo modello causale parziale latente per l'apprendimento multimodale che, superando i limiti dei DAG tradizionali, dimostra teoricamente e verifica sperimentalmente come l'apprendimento contrastivo multimodale (MMCL) e modelli pre-addestrati come CLIP possano generare rappresentazioni disaccoppiate robuste, migliorando l'apprendimento con pochi esempi e la generalizzazione di dominio.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Il documento presenta l'adattamento del framework ZACAF, integrato con tecniche di apprendimento per trasferimento e aumento dei dati, per migliorare la precisione e la generalizzabilità dell'analisi automatica della funzione cardiovascolare in zebrafish, inclusa la valutazione di mutanti nrap affetti da cardiomiopatia.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Il paper presenta FiLo, un nuovo metodo per il rilevamento di anomalie zero-shot che migliora le prestazioni combinando descrizioni testuali fine-grained generate da LLM e una localizzazione di alta qualità potenziata da Grounding DINO e interazione cross-modale multiscala, ottenendo risultati all'avanguardia sui dataset MVTec e VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Questo lavoro propone il metodo USEFUL, che riduce il pregiudizio verso la semplicità modificando la distribuzione dei dati di addestramento tramite un campionamento mirato basato sull'output iniziale della rete, migliorando così la generalizzazione in-distribuzione e ottenendo prestazioni state-of-the-art su diversi dataset e architetture.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

Il paper presenta OS-Det3D, un framework di formazione in due fasi che combina proposte di oggetti 3D agnostiche alla classe derivate da LiDAR con un modulo di selezione congiunta basato su caratteristiche visive BEV per migliorare la rilevazione di oggetti sconosciuti e noti nella guida autonoma.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Il paper presenta PO-GUISE+, un trasformatore video multi-task che migliora l'efficienza computazionale e l'accuratezza nel riconoscimento delle azioni distratte alla guida selezionando i token in base alla postura del conducente e agli oggetti interagenti, superando gli attuali metodi sullo stato dell'arte su diversi dataset e piattaforme embedded.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

Il paper presenta MSSPlace, un metodo innovativo per il riconoscimento dei luoghi che integra dati visivi e testuali provenienti da sensori multipli (telecamere, LiDAR e segmentazione semantica) per generare descrittori unificati, ottenendo prestazioni superiori rispetto agli approcci a singola modalità su dataset reali.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Questo paper presenta un nuovo dataset pubblico composto da video e un'analisi tassonomica di 90 oggetti critici, progettato per migliorare i sistemi di riconoscimento visivo e supportare la navigazione delle persone con disabilità visive, evidenziando al contempo le lacune delle attuali soluzioni di computer vision.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

Latent 3D Brain MRI Counterfactual

Il paper propone un metodo a due fasi che costruisce un modello causale strutturale nello spazio latente di un VQ-VAE per generare counterfactuali di risonanza magnetica cerebrale 3D ad alta fedeltà, superando i limiti di diversità e qualità delle tecniche generative tradizionali.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

Il paper propone il MV-Adapter, un modulo di attenzione adattiva ai canali che migliora le prestazioni della segmentazione di istanze sottomarine nell'architettura USIS-SAM mitigando gli effetti dell'attenuazione della luce, della distorsione cromatica e dei fondali complessi.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

Il paper presenta XPoint, un'architettura auto-supervisionata basata su spazi di stato visivi e modulare che supera le limitazioni dei metodi attuali nell'allineamento di immagini multispettrali, ottenendo prestazioni superiori su diverse combinazioni di modalità grazie all'uso di un encoder VMamba e a testine di decodifica specializzate.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

Il paper presenta EchoMimicV2, un metodo innovativo per l'animazione umana a mezzo busto che, attraverso una strategia di armonizzazione audio-pose dinamica e l'uso di dati headshot durante l'addestramento, elimina le condizioni ridondanti per ottenere risultati espressivi e di alta qualità senza richiedere input aggiuntivi durante l'inferenza.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Il paper introduce MFP3D, un nuovo framework che stima con precisione le porzioni di cibo a partire da una singola immagine monoculare generando una nuvola di punti 3D e combinando le caratteristiche spaziali e cromatiche per superare i limiti dei metodi esistenti.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Il paper introduce il nuovo paradigma "Grounding-IQA" per l'assessamento della qualità delle immagini, che integra modelli linguistici multimodali con compiti di grounding per abilitare valutazioni più dettagliate e localizzate, supportato dal dataset GIQA-160K e dal benchmark GIQA-Bench.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

Il paper presenta DAWN-FM, un metodo di Flow Matching che integra embedding di dati e rumore per risolvere problemi inversi mal posti in modo robusto, permettendo anche la quantificazione dell'incertezza attraverso la generazione di molteplici esiti plausibili.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Il paper propone FiLo++, un metodo per il rilevamento di anomalie in scenari zero-shot e few-shot che combina descrizioni testuali granulari fuse generate da LLM con una localizzazione deformabile basata su Grounding DINO per superare i limiti delle descrizioni generiche e delle corrispondenze a patch rigide.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Questo articolo dimostra che l'utilizzo di funzioni di attivazione basate su basi ortonormali (polinomiali, trigonometriche e tropicali), combinate con un'inizializzazione che preserva la varianza, permette di addestrare con successo modelli profondi come GPT-2 e ConvNeXt risolvendo i problemi di esplosione e svanimento dei gradienti, offrendo al contempo nuove prospettive sull'interpretazione strutturale delle reti neurali e facilitando il fine-tuning tramite approssimazione di attivazioni classiche.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Questo studio dimostra che l'inferenza generativa profonda applicata alle mappe di perfusione derivate dalla TC angiografica (CTA) permette di localizzare i substrati neurali dei deficit clinici nell'ictus ischemico acuto senza conoscere la lesione stessa, offrendo un potente strumento per la caratterizzazione funzionale precoce della malattia.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Questo studio dimostra che, sebbene CLIP appaia comportarsi come un modello "bag-of-words" nell'allineamento cross-modale, le informazioni sulle relazioni attributo-oggetto sono già presenti nelle sue rappresentazioni unimodali e possono essere recuperate efficacemente tramite una semplice trasformazione lineare, migliorando così le prestazioni senza necessità di un addestramento costoso.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

Il paper introduce WorldSense, il primo benchmark omni-modale che valuta la comprensione video integrata di audio, visivi e testo attraverso 1.662 video sincronizzati e 3.172 domande, rivelando le attuali limitazioni dei modelli nello scenario reale.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

← Precedente Successivo →