From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

Il paper propone TAR-FAS, un framework di ragionamento potenziato da strumenti per MLLM che migliora la generalizzabilità nel rilevamento di spoofing facciale trasformando il compito in un processo di indagine a catena di pensiero che combina intuizione semantica con l'uso adattivo di strumenti visivi esterni per analizzare pattern sottili.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Il paper presenta MM-DeepResearch, un agente di ricerca multimodale che supera le sfide attuali nella generazione di dati e nel costo di addestramento grazie a tre innovazioni chiave: Hyper-Search per la creazione di dati QA, DR-TTS per l'ottimizzazione di esperti di strumenti di ricerca tramite tree search, e un motore di ricerca offline che abilita l'apprendimento per rinforzo senza API online costose.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

Il paper presenta SHIELD8-UAV, un acceleratore hardware sequenziale a 8 bit per la rilevazione acustica e il tracciamento temporale di droni, che combina quantizzazione adattiva, pruning strutturato ed esecuzione seriale su FPGA e ASIC per ottenere un'inferenza a bassa energia e bassa latenza senza ricorrere a massiccia parallelizzazione.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Questo lavoro introduce AesEval-Bench, il primo framework sistematico per la valutazione dell'estetica del design grafico tramite modelli visione-linguaggio, presentando un benchmark completo, una valutazione comparativa e un dataset di addestramento per colmare il divario tra le capacità attuali dei modelli e le esigenze umane di giudizio estetico.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Differential privacy representation geometry for medical image analysis

Il paper introduce il framework DP-RGMI per analizzare come la privacy differenziale degrada le prestazioni nell'analisi di immagini mediche, rivelando che tale impatto deriva principalmente da un divario nell'utilizzo delle rappresentazioni piuttosto che da una semplice perdita di separabilità lineare, offrendo così nuovi strumenti per diagnosticare i fallimenti legati alla privacy e selezionare modelli ottimali.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

Il paper introduce GroundedSurg, il primo benchmark per l'ancoraggio chirurgico condizionato dal linguaggio che valuta la capacità dei modelli di localizzare istanze specifiche di strumenti chirurgici basandosi su descrizioni naturali, colmando così il divario tra la segmentazione categoriale esistente e le esigenze di ragionamento visivo-linguistico clinicamente realistiche.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

Il paper propone TC-SSA, un framework di compressione dei token basato sull'aggregazione semantica che risolve il collo di bottiglia computazionale delle immagini patologiche gigapixel riducendo drasticamente la sequenza di token senza sacrificare le informazioni diagnostiche critiche, ottenendo prestazioni superiori rispetto ai metodi basati sul campionamento.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI