cs.CV articoli | Gist.Science

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Il paper presenta il dataset eLasmobranc, una raccolta pubblica di immagini curata di sette specie di elasmobranchi del Mediterraneo spagnolo, acquisita principalmente in ambiente terrestre e annotata da esperti per supportare il riconoscimento delle specie a livello fine-grained e il monitoraggio della biodiversità.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Questo paper introduce Just-in-Time (JiT), un nuovo framework senza addestramento che accelera l'inferenza dei Diffusion Transformers sfruttando la ridondanza spaziale attraverso una selezione dinamica di token di ancoraggio, ottenendo un aumento di velocità fino a 7 volte con prestazioni quasi senza perdite.

Wenhao Sun, Ji Li, Zhaoqiang Liu2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Il paper propone un sistema di fotometria stereo basato su eventi che utilizza una singola sorgente luminosa rotante e una rete neurale leggera per-pixel per stimare le normali superficiali senza calibrazione, ottenendo risultati superiori in termini di precisione e robustezza rispetto ai metodi esistenti in condizioni di illuminazione variabile e ad alto dinamico.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Il paper "CodePercept" identifica le carenze percettive come il principale limite del ragionamento visivo STEM negli MLLM e propone un nuovo paradigma che utilizza l'esecuzione di codice per migliorare la percezione, supportato dal dataset su larga scala ICC-1M e dalla nuova benchmark STEM2Code-Eval.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Guiding Diffusion Models with Semantically Degraded Conditions

Il paper propone la Condition-Degradation Guidance (CDG), un metodo plug-and-play che sostituisce il prompt nullo nella guida senza classificatore con una condizione semanticamente degradata, migliorando significativamente l'accuratezza compositiva e l'allineamento testo-immagine nei modelli di diffusione moderni.

Shilong Han, Yuming Zhang, Hongxia Wang2026-03-12💻 cs

Taking Shortcuts for Categorical VQA Using Super Neurons

Il paper introduce i "Super Neurons", un metodo di probing che utilizza le attivazioni scalari dirette dei primi token nei livelli più superficiali dei modelli visione-linguaggio per ottenere classificatori ad alte prestazioni con un'accelerazione fino a 5,10 volte rispetto alla rete originale.

Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park2026-03-12🤖 cs.AI

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Il paper propone LGA-RCM-YOLO, un modello di segmentazione istanziata basato su YOLO11m-seg e addestrato sul dataset CTG 2.0, che supera le sfide del monitoraggio visivo in vetreria trasparente identificando con precisione le interfacce di fase e le attributi di colore per abilitare il controllo automatico dei processi di laboratorio.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

Il paper propone la Semantic Granularity Alignment (SGA), un metodo che, analizzando la dinamica di ottimizzazione del Flow Matching attraverso una forma quadratica e un kernel NTK, allinea la granularità semantica per mitigare i conflitti di gradiente e migliorare l'efficienza e la qualità nella sintesi di immagini da testo.

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

Il paper presenta PolGS++, un nuovo framework di Gaussian Splatting polarimetrico guidato dalla fisica che integra un modello pBRDF e una maschera di visibilità guidata dalla profondità per ricostruire rapidamente e con alta precisione superfici riflettenti, superando i limiti dei metodi precedenti nel recupero di geometria e normali.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

Questo paper indaga come gli attacchi backdoor siano rappresentati nei Vision Transformers, identificando una specifica "direzione del trigger" nelle attivazioni del modello che ne conferma il ruolo causale, permettendo di tracciare l'elaborazione delle caratteristiche malevole, analizzare le differenze tra trigger statici e distribuiti, e proporre un metodo di rilevamento basato sui pesi senza necessità di dati.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Il paper introduce HanMoVLM, un modello visione-linguaggio su larga scala specializzato nella valutazione professionale di dipinti cinesi che, grazie a un nuovo dataset (HanMo-Bench) e a un ragionamento guidato da esperti, colma il divario tra capacità generiche dei VLM e giudizio artistico umano, fungendo anche da validatore per migliorare la generazione di immagini artistiche.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

Il paper presenta MEDISEG, un nuovo dataset di immagini di farmaci con maschere di segmentazione istanza progettato per migliorare il riconoscimento dei medicinali in scenari reali complessi e prevenire errori terapeutici, dimostrando attraverso l'addestramento di modelli YOLOv8 e YOLOv9 la sua efficacia nel supportare sia l'addestramento supervisionato robusto che l'apprendimento con pochi esempi.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

Il paper presenta BALD-SAM, un framework di apprendimento attivo che adatta il principio di disaccordo bayesiano (BALD) alla selezione spaziale dei prompt nel Segment Anything Model (SAM), permettendo di identificare automaticamente le regioni più informative per iterazioni di segmentazione interattiva e ottenendo prestazioni superiori rispetto a prompt umani e baselines in 14 dei 16 dataset testati.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Questo studio valuta la capacità di sistemi di riconoscimento dei farmaci di adattarsi a scenari reali complessi tramite apprendimento few-shot, evidenziando come, sebbene la classificazione semantica sia efficace anche con pochi esempi, la localizzazione e il richiamo risentano significativamente di sovrapposizioni e occlusioni, sottolineando l'importanza cruciale di dati di addestramento realistici per il dispiegamento pratico.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

On the Reliability of Cue Conflict and Beyond

Il paper introduce REFINED-BIAS, un nuovo framework di valutazione che risolve le instabilità e le ambiguità del benchmark di conflitto di indizi esistente, fornendo diagnosi più affidabili e interpretabili dei bias forma-testo nelle reti neurali attraverso cue pairs bilanciati e una metrica basata sul ranking su tutto lo spazio delle etichette.

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Questo articolo presenta la prima soluzione per la rilevazione della presenza umana sui laptop commerciali che utilizza esclusivamente l'hardware Wi-Fi integrato, introducendo una nuova tecnica chiamata spettro Doppler filtrato per la distanza (RF-DS) e un framework di elaborazione adattiva per garantire precisione, privacy e basso consumo energetico senza richiedere sensori esterni o infrastrutture di rete.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Il paper presenta UltrasoundAgents, un framework gerarchico multi-agente che allinea il processo diagnostico ecografico al flusso di lavoro clinico attraverso una catena di ragionamento basata su evidenze strutturate e una strategia di addestramento progressivo decoupled, migliorando sia l'accuratezza diagnostica che la tracciabilità delle decisioni rispetto ai metodi esistenti.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Il paper propone DIPE, un nuovo metodo di codifica posizionale che risolve il problema del "visual fading" nei modelli multimodali a lungo contesto, eliminando la penalità delle distanze inter-modali tipica del Multimodal RoPE e garantendo così una stabilità nel grounding visivo senza compromettere le prestazioni su contesti brevi.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

Il paper propone BiLaLoRA, un metodo di de-abbagliamento per immagini reali che combina una perdita guidata dal testo basata su CLIP per l'adattamento non supervisionato e una strategia di posizionamento a due livelli dei parametri LoRA per ottimizzare automaticamente gli strati critici della rete, superando così le tecniche più avanzate su diversi benchmark.

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

Il paper introduce S2D, una pipeline innovativa che combina un modello di diffusione per la correzione delle immagini sparse e una strategia di ricostruzione robusta per generare rappresentazioni 3D di alta qualità con il minimo numero di input necessari.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

← Precedente Successivo →