cs.CV articoli | Gist.Science

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

Il paper presenta NOVA3R, un approccio feed-forward basato su Transformer che, utilizzando un meccanismo di token di scena e un decoder di diffusione, ricostruisce amodalmente geometrie 3D complete e non allineate ai pixel a partire da immagini non posizionate, superando i limiti dei metodi tradizionali legati all'allineamento per raggio.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Questo lavoro propone un nuovo framework unificato che, sfruttando l'attenzione incrociata tra compiti e strategie di supervisione mista, risolve le sfide del rilevamento congiunto di lacune e spazi perivascolari ingranditi nella malattia dei piccoli vasi cerebrali, ottenendo prestazioni all'avanguardia e una robusta validazione su dataset su larga scala.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Il paper introduce "Gaussian Wardrobe", un nuovo framework che utilizza una rappresentazione composita 3D basata su Gaussiani per digitalizzare avatar neurali separando il corpo dai vestiti, permettendo così la sintesi di pose realistiche e il trasferimento libero degli indumenti su nuovi soggetti.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Questo studio dimostra che l'allineamento linguistico, attraverso un nuovo metodo chiamato "Semantic Anchoring", risolve il collasso semantico nei modelli foundation per la patologia computazionale, migliorando significativamente la rilevazione del cancro sia in contesti interspecie che inter-tumorali senza necessità di riaddestramento.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Questo paper propone il framework "Dual Tuning" per quantificare i benefici del ragionamento nei task multimodali, definendo un "confine del pensiero" che guida la selezione strategica dei dati e delle tecniche di addestramento, sfidando così l'approccio universalmente basato sul ragionamento.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Il paper introduce SkillNet, un'infrastruttura aperta che crea, valuta e organizza competenze AI su larga scala attraverso un'ontologia unificata e un repository di oltre 200.000 competenze, migliorando significativamente le prestazioni degli agenti riducendo la necessità di reinventare soluzioni già esistenti.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Questo articolo presenta un approccio di deep learning multi-modale che integra dati video, pose umane e oggetti tramite meccanismi di attenzione incrociata per migliorare il riconoscimento delle attività quotidiane negli ambienti di vita assistita per anziani, dimostrando risultati promettenti sul dataset Toyota SmartHome.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Il paper introduce InverseNet, il primo benchmark cross-modale che quantifica l'impatto del disallineamento tra operatori fisici e modelli computazionali nelle immagini compressive, rivelando come la maggior parte dei metodi deep learning perda significativamente in robustezza e come la calibrazione cieca possa recuperare quasi interamente le prestazioni perse.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Questo studio analizza diverse strategie di fusione e raggruppamento per migliorare l'accuratezza della classificazione delle Zone Climatiche Locali (LCZ) utilizzando dati di telerilevamento multimodali, dimostrando che un modello ibrido di base combinato con il raggruppamento delle bande e la fusione dei livelli decisionali raggiunge la massima precisione del 76,6% sul dataset So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Il paper propone il "Dual-LoRA Controllable Diffusion", un framework unificato di diffusione guidato da centroidi che utilizza adattatori LoRA specifici per il compito per generare immagini di istopatologia realistiche e strutturalmente coerenti, migliorando significativamente sia il completamento locale che la sintesi globale rispetto agli stati dell'arte esistenti.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Il paper introduce Partial Vision Mamba (PVM), un nuovo componente architetturale che adatta i principi delle convoluzioni parziali ai modelli a spazio di stato come Mamba, permettendo loro di gestire efficacemente dati con regioni mancanti o invalide in compiti di visione artificiale come il completamento della profondità e l'inpainting.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Il paper presenta PinPoint, un nuovo benchmark completo per la Ricerca di Immagini Composte (CIR) che introduce valutazioni su negativi espliciti, query multi-immagine e robustezza alle parafrasi, rivelando limiti significativi negli attuali metodi e proponendo una soluzione di riordinamento basata su MLLM per colmare tali lacune.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

Questo lavoro presenta il modello SGR3, un framework senza addestramento che utilizza modelli linguistici multimodali potenziati dal retrieval per generare scene graph 3D senza necessità di ricostruzione esplicita, ottenendo prestazioni competitive rispetto ai modelli basati su GNN.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Spinverse è un metodo di ricostruzione microstrutturale per la risonanza magnetica a diffusione che, sfruttando un simulatore di Bloch-Torrey completamente differenziabile su una griglia tetraedrica, ottimizza le permeabilità delle facce interne per invertire i segnali dMRI e recuperare interfacce biologiche esplicite senza modificare la connettività della mesh.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

Questo studio dimostra che l'approccio multimodale, che combina modelli linguistici e analisi visiva tramite GPT-4.1-nano, supera i metodi unimodali nel prevedere la difficoltà degli item di alfabetizzazione alla visualizzazione dei dati, offrendo un potenziale significativo per l'analisi psicometrica e lo sviluppo automatizzato di test.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Questo lavoro propone l'analisi sFRC (Fourier Ring Correlation su piccole patch), una tecnica innovativa per rilevare le allucinazioni nelle immagini mediche restaurate tramite deep learning, dimostrandone l'efficacia nel valutare la robustezza di diversi metodi di ricostruzione su dati sottocampionati.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Il paper propone PulseFocus, un metodo di inferenza senza addestramento che risolve il problema delle distrazioni attentive e dei bias posizionali nei modelli VLM a ragionamento multi-immagine, ottenendo miglioramenti significativi su benchmark come BLINK e MuirBench.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Questo studio presenta una valutazione sistematica di tre strategie di compressione delle reti neurali (pruning, quantizzazione e distillazione della conoscenza) per la classificazione di immagini iperspettrali, dimostrando che è possibile ridurre significativamente le dimensioni e i costi computazionali dei modelli mantenendo prestazioni competitive per le applicazioni di telerilevamento.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Questo studio dimostra che, sebbene i modelli linguistici multimodali possano essere adattati per il rilevamento di anomalie video tramite istruzioni specifiche, soffrono di un forte bias conservativo in modalità zero-shot che ne limita l'utilità pratica a causa di una scarsa capacità di recupero (recall) in ambienti reali.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Il paper propone FOZO, un metodo di ottimizzazione del prompt senza backpropagation e a ordine zero che, sfruttando una scala di perturbazione decrescente e obiettivi basati su statistiche delle feature ed entropia, garantisce un'adattabilità test-time efficiente e stabile su dispositivi con risorse limitate, superando le prestazioni dei metodi basati su gradienti e di approcci forward-only esistenti.

Xingyu Wang, Tao Wang2026-03-06💻 cs

← Precedente Successivo →