cs.CV articoli | Gist.Science

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Questo studio dimostra che l'uso di reti neurali convoluzionali, in particolare DenseNet121, è promettente per il rilevamento automatico e la classificazione delle artefatti iper- e ipointensi nelle immagini di risonanza magnetica mammaria con diffusione ad alto valore b (b=1500 s/mm²), sebbene siano necessarie ulteriori validazioni.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

Questo lavoro introduce il Spatial Causal Prediction (SCP), un nuovo paradigma di task e il relativo benchmark SCP-Bench, per valutare la capacità dei modelli di ragionare su relazioni spaziali e causali non osservabili, rivelando significativi limiti nelle attuali intelligenze artificiali rispetto alle capacità umane.

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

Il paper introduce RVN-Bench, un nuovo benchmark collision-aware basato su Habitat 2.0 e scene HM3D ad alta fedeltà, progettato per valutare e addestrare agenti di navigazione visiva reattiva e sicura in ambienti interni complessi e non mappati.

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

Il paper propone un metodo di sintesi dei dati di addestramento e una rete neurale innovativa che, decoupling le informazioni cromatiche e sfruttando dati multiscala, migliorano significativamente la robustezza e la generalizzazione della stima dell'omografia tra diverse modalità visive.

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

Structural Action Transformer for 3D Dexterous Manipulation

Questo articolo propone il Structural Action Transformer (SAT), un nuovo approccio basato su un Transformer strutturale e su un codice articolato incorporato che, trattando le azioni come sequenze non ordinate di traiettorie articolari, supera i limiti delle rappresentazioni temporali tradizionali per abilitare un trasferimento efficace delle abilità tra diversi robot con mani ad alta libertà di movimento.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

Il paper presenta ProFound, un modello di visione fondazionale specializzato nel dominio, pre-addestrato su un vasto dataset multi-istituzionale di risonanze magnetiche multiparametriche della prostata, che dimostra prestazioni superiori o competitive rispetto agli stati dell'arte su 11 diversi compiti clinici di rilevamento, classificazione e segmentazione.

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Il paper presenta BLOCK, una pipeline open-source bi-fase che utilizza un modello multimodale (MLLM) per generare anteprime 3D coerenti e un modello FLUX.2 fine-tunato con una strategia EvolveLoRA per convertire concept di personaggi in skin di Minecraft pixel-perfect.

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

Il paper propone UniRain, un quadro unificato per la rimozione della pioggia dalle immagini che combina una pipeline di distillazione dei dataset basata su RAG per la selezione dei campioni di addestramento e una strategia di ottimizzazione multi-obiettivo con pesi variabili all'interno di un'architettura asimmetrica a esperti misti, ottenendo prestazioni superiori su scene diurne e notturne con diverse degradazioni da pioggia.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

Questo paper introduce un nuovo metodo di preaddestramento auto-supervisionato che distilla modelli visivi fondazionali per apprendere rappresentazioni dense e scalabili da flussi di eventi, superando le limitazioni delle tecniche esistenti grazie a una funzione di perdita di distillazione consapevole della struttura che garantisce un allineamento semantico più robusto tra immagini ed eventi.

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

Il paper presenta Dual-Solver, un solutore ODE generalizzato per modelli di diffusione che, mediante parametri appresi per interpolare dinamicamente tra tipi di previsione, domini di integrazione e termini residui, migliora significativamente la qualità del campionamento a basso costo computazionale (3-9 valutazioni della funzione) rispetto ai metodi tradizionali.

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG

Phi-4-reasoning-vision-15B Technical Report

Il rapporto tecnico presenta Phi-4-reasoning-vision-15B, un modello multimodale di ragionamento open-weight e compatto che, grazie a scelte architetturali mirate, una rigorosa curatela dei dati e un mix ibrido di modalità di risposta, eccelle nel ragionamento scientifico e matematico e nella comprensione delle interfacce utente, dimostrando come la qualità dei dati sia il fattore determinante per le prestazioni.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

Il paper presenta GeoSeg, un framework zero-shot e senza addestramento che combina il ragionamento dei MLLM con tecniche di raffinamento delle coordinate e prompting duale per superare le sfide della segmentazione nell'immaginario telerilevato, accompagnato dal benchmark diagnostico GeoSeg-Bench.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Il paper introduce RIVER Bench, un nuovo benchmark e framework progettato per valutare e migliorare le capacità di interazione in tempo reale dei modelli video LLM, superando i limiti dei paradigmi offline attraverso compiti di memoria retrospettiva, percezione in diretta e anticipazione proattiva.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Questo studio introduce un quadro diagnostico basato sulla pareidolia facciale per analizzare come diversi modelli di visione interpretano evidenze visive ambigue, rivelando che le scelte rappresentazionali, piuttosto che le soglie di punteggio, determinano se i modelli tendono a un'iperattivazione semantica (come nei VLM) o a un'astensione prudente (come nei rilevatori).

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

Il paper presenta SAFE, un framework a due stadi che combina apprendimento debole supervisionato, apprendimento contrastivo e inferenza di embedding per espandere sistematicamente le annotazioni sparse delle lesioni nella retinopatia diabetica, migliorando significativamente l'accuratezza della classificazione e la rilevanza clinica rispetto ai metodi esistenti.

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

Il paper propone DPAD, un metodo che migliora la segmentazione tramite ragionamento integrando l'apprendimento per rinforzo con un meccanismo di percezione discriminativa basato su descrizioni ancorate, ottenendo catene di ragionamento più concise e precise su benchmark come ReasonSeg.

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Questo studio propone un nuovo approccio all'apprendimento per rinforzo per la generazione di referti radiologici che, combinando una strategia di campionamento basata sulla diversità diagnostica e un'ottimizzazione della politica ponderata sui token diagnostici (DiTPO), raggiunge prestazioni all'avanguardia con una frazione significativa dei dati di addestramento rispetto ai metodi esistenti.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Il paper propone la Volumetric Directional Diffusion (VDD), un modello che risolve il compromesso tra fedeltà e diversità nella segmentazione di lesioni mediche ambigue ancorando il processo generativo a un consenso anatomico deterministico, permettendo così di quantificare l'incertezza in modo sicuro senza compromettere la coerenza strutturale.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Il paper propone DQE-CIR, un metodo per il recupero di immagini composte che migliora la discriminatività delle query attraverso pesi attributivi apprendibili e un campionamento negativo relativo al target, superando i limiti dei framework contrastivi tradizionali.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Questo lavoro presenta un nuovo dataset curato, un metodo innovativo di ground truth basato sulle impronte visive e un benchmark di riconoscimento dei luoghi visivi per affrontare le sfide della localizzazione visiva a lungo termine in ambienti bentonici dinamici.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

← Precedente Successivo →