eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Il paper presenta il dataset eLasmobranc, una raccolta pubblica di immagini curata di sette specie di elasmobranchi del Mediterraneo spagnolo, acquisita principalmente in ambiente terrestre e annotata da esperti per supportare il riconoscimento delle specie a livello fine-grained e il monitoraggio della biodiversità.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Il paper propone un sistema di fotometria stereo basato su eventi che utilizza una singola sorgente luminosa rotante e una rete neurale leggera per-pixel per stimare le normali superficiali senza calibrazione, ottenendo risultati superiori in termini di precisione e robustezza rispetto ai metodi esistenti in condizioni di illuminazione variabile e ad alto dinamico.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Il paper "CodePercept" identifica le carenze percettive come il principale limite del ragionamento visivo STEM negli MLLM e propone un nuovo paradigma che utilizza l'esecuzione di codice per migliorare la percezione, supportato dal dataset su larga scala ICC-1M e dalla nuova benchmark STEM2Code-Eval.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Il paper propone LGA-RCM-YOLO, un modello di segmentazione istanziata basato su YOLO11m-seg e addestrato sul dataset CTG 2.0, che supera le sfide del monitoraggio visivo in vetreria trasparente identificando con precisione le interfacce di fase e le attributi di colore per abilitare il controllo automatico dei processi di laboratorio.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Il paper presenta PolGS++, un nuovo framework di Gaussian Splatting polarimetrico guidato dalla fisica che integra un modello pBRDF e una maschera di visibilità guidata dalla profondità per ricostruire rapidamente e con alta precisione superfici riflettenti, superando i limiti dei metodi precedenti nel recupero di geometria e normali.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

Questo paper indaga come gli attacchi backdoor siano rappresentati nei Vision Transformers, identificando una specifica "direzione del trigger" nelle attivazioni del modello che ne conferma il ruolo causale, permettendo di tracciare l'elaborazione delle caratteristiche malevole, analizzare le differenze tra trigger statici e distribuiti, e proporre un metodo di rilevamento basato sui pesi senza necessità di dati.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Il paper introduce HanMoVLM, un modello visione-linguaggio su larga scala specializzato nella valutazione professionale di dipinti cinesi che, grazie a un nuovo dataset (HanMo-Bench) e a un ragionamento guidato da esperti, colma il divario tra capacità generiche dei VLM e giudizio artistico umano, fungendo anche da validatore per migliorare la generazione di immagini artistiche.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

Il paper presenta MEDISEG, un nuovo dataset di immagini di farmaci con maschere di segmentazione istanza progettato per migliorare il riconoscimento dei medicinali in scenari reali complessi e prevenire errori terapeutici, dimostrando attraverso l'addestramento di modelli YOLOv8 e YOLOv9 la sua efficacia nel supportare sia l'addestramento supervisionato robusto che l'apprendimento con pochi esempi.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

Il paper presenta BALD-SAM, un framework di apprendimento attivo che adatta il principio di disaccordo bayesiano (BALD) alla selezione spaziale dei prompt nel Segment Anything Model (SAM), permettendo di identificare automaticamente le regioni più informative per iterazioni di segmentazione interattiva e ottenendo prestazioni superiori rispetto a prompt umani e baselines in 14 dei 16 dataset testati.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Questo studio valuta la capacità di sistemi di riconoscimento dei farmaci di adattarsi a scenari reali complessi tramite apprendimento few-shot, evidenziando come, sebbene la classificazione semantica sia efficace anche con pochi esempi, la localizzazione e il richiamo risentano significativamente di sovrapposizioni e occlusioni, sottolineando l'importanza cruciale di dati di addestramento realistici per il dispiegamento pratico.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Questo articolo presenta la prima soluzione per la rilevazione della presenza umana sui laptop commerciali che utilizza esclusivamente l'hardware Wi-Fi integrato, introducendo una nuova tecnica chiamata spettro Doppler filtrato per la distanza (RF-DS) e un framework di elaborazione adattiva per garantire precisione, privacy e basso consumo energetico senza richiedere sensori esterni o infrastrutture di rete.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Il paper presenta UltrasoundAgents, un framework gerarchico multi-agente che allinea il processo diagnostico ecografico al flusso di lavoro clinico attraverso una catena di ragionamento basata su evidenze strutturate e una strategia di addestramento progressivo decoupled, migliorando sia l'accuratezza diagnostica che la tracciabilità delle decisioni rispetto ai metodi esistenti.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Il paper propone DIPE, un nuovo metodo di codifica posizionale che risolve il problema del "visual fading" nei modelli multimodali a lungo contesto, eliminando la penalità delle distanze inter-modali tipica del Multimodal RoPE e garantendo così una stabilità nel grounding visivo senza compromettere le prestazioni su contesti brevi.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs