cs.CV articoli | Gist.Science

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Il paper presenta PolGS++, un nuovo framework di Gaussian Splatting polarimetrico guidato dalla fisica che integra un modello pBRDF e una maschera di visibilità guidata dalla profondità per ricostruire rapidamente e con alta precisione superfici riflettenti, superando i limiti dei metodi precedenti nel recupero di geometria e normali.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

Questo paper indaga come gli attacchi backdoor siano rappresentati nei Vision Transformers, identificando una specifica "direzione del trigger" nelle attivazioni del modello che ne conferma il ruolo causale, permettendo di tracciare l'elaborazione delle caratteristiche malevole, analizzare le differenze tra trigger statici e distribuiti, e proporre un metodo di rilevamento basato sui pesi senza necessità di dati.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Il paper introduce HanMoVLM, un modello visione-linguaggio su larga scala specializzato nella valutazione professionale di dipinti cinesi che, grazie a un nuovo dataset (HanMo-Bench) e a un ragionamento guidato da esperti, colma il divario tra capacità generiche dei VLM e giudizio artistico umano, fungendo anche da validatore per migliorare la generazione di immagini artistiche.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

Il paper presenta MEDISEG, un nuovo dataset di immagini di farmaci con maschere di segmentazione istanza progettato per migliorare il riconoscimento dei medicinali in scenari reali complessi e prevenire errori terapeutici, dimostrando attraverso l'addestramento di modelli YOLOv8 e YOLOv9 la sua efficacia nel supportare sia l'addestramento supervisionato robusto che l'apprendimento con pochi esempi.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

Il paper presenta BALD-SAM, un framework di apprendimento attivo che adatta il principio di disaccordo bayesiano (BALD) alla selezione spaziale dei prompt nel Segment Anything Model (SAM), permettendo di identificare automaticamente le regioni più informative per iterazioni di segmentazione interattiva e ottenendo prestazioni superiori rispetto a prompt umani e baselines in 14 dei 16 dataset testati.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Questo studio valuta la capacità di sistemi di riconoscimento dei farmaci di adattarsi a scenari reali complessi tramite apprendimento few-shot, evidenziando come, sebbene la classificazione semantica sia efficace anche con pochi esempi, la localizzazione e il richiamo risentano significativamente di sovrapposizioni e occlusioni, sottolineando l'importanza cruciale di dati di addestramento realistici per il dispiegamento pratico.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

On the Reliability of Cue Conflict and Beyond

Il paper introduce REFINED-BIAS, un nuovo framework di valutazione che risolve le instabilità e le ambiguità del benchmark di conflitto di indizi esistente, fornendo diagnosi più affidabili e interpretabili dei bias forma-testo nelle reti neurali attraverso cue pairs bilanciati e una metrica basata sul ranking su tutto lo spazio delle etichette.

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Questo articolo presenta la prima soluzione per la rilevazione della presenza umana sui laptop commerciali che utilizza esclusivamente l'hardware Wi-Fi integrato, introducendo una nuova tecnica chiamata spettro Doppler filtrato per la distanza (RF-DS) e un framework di elaborazione adattiva per garantire precisione, privacy e basso consumo energetico senza richiedere sensori esterni o infrastrutture di rete.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Il paper presenta UltrasoundAgents, un framework gerarchico multi-agente che allinea il processo diagnostico ecografico al flusso di lavoro clinico attraverso una catena di ragionamento basata su evidenze strutturate e una strategia di addestramento progressivo decoupled, migliorando sia l'accuratezza diagnostica che la tracciabilità delle decisioni rispetto ai metodi esistenti.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Il paper propone DIPE, un nuovo metodo di codifica posizionale che risolve il problema del "visual fading" nei modelli multimodali a lungo contesto, eliminando la penalità delle distanze inter-modali tipica del Multimodal RoPE e garantendo così una stabilità nel grounding visivo senza compromettere le prestazioni su contesti brevi.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

Il paper propone BiLaLoRA, un metodo di de-abbagliamento per immagini reali che combina una perdita guidata dal testo basata su CLIP per l'adattamento non supervisionato e una strategia di posizionamento a due livelli dei parametri LoRA per ottimizzare automaticamente gli strati critici della rete, superando così le tecniche più avanzate su diversi benchmark.

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

Il paper introduce S2D, una pipeline innovativa che combina un modello di diffusione per la correzione delle immagini sparse e una strategia di ricostruzione robusta per generare rappresentazioni 3D di alta qualità con il minimo numero di input necessari.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

Questo studio presenta un'architettura innovativa per il rilevamento delle lesioni del cancro orale, dimostrando che l'uso di pattern di progettazione come il Singleton e l'elaborazione in batch nelle implementazioni OC-RPAv1 e OC-RPAv2 riduce drasticamente i tempi di previsione da 0,29 a 0,06 secondi per immagine, ottenendo un miglioramento dell'efficienza fino a 100 volte rispetto ai metodi RPA standard.

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Questo lavoro presenta un nuovo framework di apprendimento per imitazione a vita che, operando in uno spazio latente multimodale e integrando un meccanismo di aggiustamento incrementale dei feature, supera lo stato dell'arte sui benchmark LIBERO riducendo significativamente l'oblio e migliorando le prestazioni.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

Il sistema CBCTRepD colma il divario di competenze nell'interpretazione delle CBCT cliniche generando relazioni bilingue di alta qualità che, grazie a un framework di valutazione clinica, migliorano le prestazioni dei radiologi di tutti i livelli di esperienza e riducono gli errori di omissione.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Questo paper introduce il "Historical Consensus Training", un metodo iterativo che seleziona prior a miscela gaussiana per eliminare definitivamente il collasso posteriore nei VAE, garantendo rappresentazioni informative senza richiedere condizioni di stabilità esplicite o vincoli architetturali.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

Il paper presenta Pointy, un'architettura transformer leggera per modelli fondazionali di nuvole di punti che, pur addestrata su un dataset ridotto di 39k campioni, supera modelli più grandi e complessi grazie a un'attenta progettazione e a un rigoroso studio di replicazione.

Konrad Szafer, Marek Kraft, Dominik Belter2026-03-12🤖 cs.LG

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Questo articolo propone SSL-V3, un modello basato su un Transformer per la visione video e apprendimento auto-supervisionato che integra la valutazione della qualità video senza riferimento per migliorare l'accuratezza della classificazione video, specialmente in scenari con dati sfocati o limitati.

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

Il paper presenta Med-DualLoRA, un framework federato di efficientamento dei parametri che adatta modelli fondazionali per la risonanza magnetica cardiaca 3D disaccoppiando adattamenti locali e globali per migliorare le prestazioni di rilevamento delle malattie riducendo al contempo i costi di comunicazione e preservando la privacy dei dati.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs

VCR: Variance-Driven Channel Recalibration for Robust Low-Light Enhancement

Il documento presenta VCR, un nuovo framework per il potenziamento di immagini in condizioni di scarsa illuminazione che risolve le inconsistenze tra luminanza e crominanza attraverso i moduli di adattamento adattivo dei canali e di allineamento della distribuzione del colore, ottenendo prestazioni all'avanguardia.

Zhixin Cheng, Fangwen Zhang, Xiaotian Yin, Baoqun Yin, Haodian Wang2026-03-12💻 cs

← Precedente Successivo →