cs.CV articoli | Gist.Science

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Il paper propone un framework multimodale end-to-end che integra immagini e metadati DICOM mediante meccanismi di attenzione incrociata e apprendimento dizionario per classificare serie di immagini mediche in modo robusto, superando le sfide legate all'eterogeneità dei dati e alla sparsità dei metadati senza richiedere imputazione.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Il paper propone un modello di diffusione guidato dall'incertezza di polarizzazione che, integrando un prior generativo da modelli testo-immagine, supera i limiti dei metodi esistenti nel ricostruire con alta fedeltà le caratteristiche di polarizzazione (DOP e AOP) dalle immagini grezze a filtro colorato-polarizzato.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Il paper presenta un modello multi-modale e multi-task che combina BERT e CLIP con una strategia di pseudo-etichettatura per rilevare immagini generate dall'IA e identificarne i modelli sottostanti, ottenendo il quinto posto nelle competizioni CT2 con punteggi F1 rispettivamente del 83,16% e del 48,88%.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

Il paper propone ReSeg-CLIP, un metodo senza addestramento per la segmentazione semantica open-vocabulary in ambito di telerilevamento che combina un meccanismo di mascheramento gerarchico basato su SAM con una composizione di modelli CLIP specifici per il settore, ottenendo risultati all'avanguardia su tre benchmark.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Il paper propone un sistema ibrido cloud-veicolo che, sfruttando la comunicazione V2X e modelli transformer per la fusione dei dati sensoriali, adatta dinamicamente il carico computazionale e la quantizzazione delle feature per garantire una percezione 3D a 360 gradi con latenza ridotta e maggiore accuratezza rispetto alle soluzioni puramente onboard.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Questo studio propone un metodo di riconoscimento visivo dei luoghi aereo adattivo all'altitudine che, analizzando la densità delle caratteristiche del suolo per stimare l'altitudine relativa e generare immagini query canoniche, raggiunge una localizzazione robusta e ad alta precisione senza richiedere sensori aggiuntivi.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

Il paper propone DACESR, un metodo che combina un estrattore di embedding reale (REE) basato su RAM per gestire le immagini degradate e una rete Mamba potenziata da un modulatore di caratteristiche condizionale (CFM), al fine di migliorare la super-risoluzione delle immagini nel mondo reale bilanciando fedeltà e qualità percettiva.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

Il paper propone SelfOccFlow, un metodo end-to-end autosupervisionato per la previsione del flusso di occupazione 3D che elimina la necessità di annotazioni umane o supervisione esterna, disaccoppiando i campi di distanza firmati statici e dinamici e apprendendo il movimento implicitamente attraverso l'aggregazione temporale.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Il paper introduce Ref-Adv, un nuovo benchmark per la comprensione delle espressioni referenziali progettato per eliminare scorciatoie e testare rigorosamente il ragionamento visivo dei modelli linguistici multimodali, rivelando che, nonostante le prestazioni elevate su dataset esistenti, gli attuali modelli MLLM falliscono nel gestire espressioni linguisticamente complesse e distrattori difficili.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

Il paper propone BUSD-Agent, un framework multi-agente auto-adattivo guidato dall'esperienza che riduce significativamente i rinvii per biopsia e le escalation diagnostiche nel screening e nella diagnosi del cancro al seno tramite ultrasuoni, recuperando casi storici simili per adattare dinamicamente le decisioni senza aggiornamenti parametrici.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

Il paper presenta ABPolicy, una politica di flusso asincrona basata su B-spline che garantisce movimenti robotici lisci e reattivi risolvendo le discontinuità e il jitter tipici delle inferenze sincrone attraverso la previsione bidirezionale e l'ottimizzazione di rifitting.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

SegMate è un framework efficiente 2.5D basato su un'architettura asimmetrica e meccanismi di attenzione che, pur riducendo significativamente i requisiti computazionali e di memoria, raggiunge prestazioni all'avanguardia nella segmentazione multi-organo su diversi dataset medici.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

Il paper introduce CS-CLIP, un modello che risolve il problema delle "mezz verità" nei sistemi di recupero immagine-testo basati su CLIP decomponendo le didascalie in unità di entità e relazioni per un addestramento supervisionato più rigoroso, migliorando significativamente la capacità del modello di penalizzare dettagli errati e aumentando la comprensione composizionale.

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Questo lavoro propone un nuovo framework di stima della trasferibilità basato sulla topologia, composto da divergenza globale, consistenza locale ai bordi e fusione adattiva, che supera significativamente gli stati dell'arte nella selezione senza addestramento di modelli fondazione medici per compiti di segmentazione densa.

Jiaqi Tang, Shaoyang Zhang, Xiaoqi Wang + 3 more2026-03-02🤖 cs.AI

Leveraging Geometric Prior Uncertainty and Complementary Constraints for High-Fidelity Neural Indoor Surface Reconstruction

Il paper presenta GPU-SDF, un framework neurale per la ricostruzione di superfici indoor ad alta fedeltà che supera le limitazioni dei precedenti approcci stimando esplicitamente l'incertezza dei prior geometrici e integrando vincoli complementari per preservare dettagli fini e strutture complesse.

Qiyu Feng, Jiwei Shan, Shing Shin Cheng + 1 more2026-03-02💻 cs

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Questo lavoro propone STE-VLN, un approccio che migliora la navigazione visione-linguaggio in ambienti non visti integrando una nuova conoscenza grafica multimodale (YE-KG) estratta da video reali, permettendo agli agenti di superare le istruzioni ambigue e il ragionamento a lungo termine attraverso un meccanismo di recupero gerarchico.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

Il paper presenta PointCoT, un nuovo framework e benchmark su larga scala che potenzia i modelli linguistici multimodali nel ragionamento geometrico 3D attraverso un approccio esplicito di "Chain-of-Thought" (Look, Think, then Answer) per ridurre le allucinazioni geometriche.

Dongxu Zhang, Yiding Sun, Pengcheng Li + 12 more2026-03-02🤖 cs.AI

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Questo articolo propone una rete di estrazione delle microespressioni a due rami con fusione adattiva e attenzione parallela, che supera i metodi esistenti raggiungendo un'accuratezza del 74,67% sul dataset CASME II.

Mingjie Zhang, Bo Li, Wanting Liu + 5 more2026-03-02🤖 cs.AI

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Il paper presenta CC-VQA, un metodo senza addestramento per il Visual Question Answering basato sulla conoscenza che mitiga i conflitti di conoscenza integrando un ragionamento sui conflitti centrato sulla visione e una codifica e decodifica guidata dalle correlazioni, ottenendo prestazioni all'avanguardia su diversi benchmark.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

GDA-YOLO11: Amodal Instance Segmentation for Occlusion-Robust Robotic Fruit Harvesting

Il paper presenta GDA-YOLO11, un nuovo modello di segmentazione amodale basato su YOLO11 che, integrando miglioramenti architetturali e una funzione di perdita asimmetrica aggiornata, supera le sfide dell'occlusione nella raccolta robotica di agrumi ottenendo un'elevata precisione e tassi di successo anche in scenari complessi.

Caner Beldek, Emre Sariyildiz, Son Lam Phung + 1 more2026-03-02💻 cs

← Precedente Successivo →