cs.CV articoli | Gist.Science

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

Il paper propone TAR-FAS, un framework di ragionamento potenziato da strumenti per MLLM che migliora la generalizzabilità nel rilevamento di spoofing facciale trasformando il compito in un processo di indagine a catena di pensiero che combina intuizione semantica con l'uso adattivo di strumenti visivi esterni per analizzare pattern sottili.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Il paper presenta MM-DeepResearch, un agente di ricerca multimodale che supera le sfide attuali nella generazione di dati e nel costo di addestramento grazie a tre innovazioni chiave: Hyper-Search per la creazione di dati QA, DR-TTS per l'ottimizzazione di esperti di strumenti di ricerca tramite tree search, e un motore di ricerca offline che abilita l'apprendimento per rinforzo senza API online costose.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

Il paper propone ELF-VLA, un framework che supera i limiti dell'apprendimento per rinforzo nei modelli VLA per la guida autonoma fornendo feedback diagnostico esplicito sui fallimenti, consentendo così di raggiungere prestazioni state-of-the-art sul benchmark NAVSIM.

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

Il paper presenta LLaDA-o, un modello di diffusione omni multimodale basato su un framework Mixture of Diffusion e una strategia di adattamento della lunghezza dei dati, che ottiene prestazioni all'avanguardia nella comprensione e generazione multimodale.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

Il paper presenta SHIELD8-UAV, un acceleratore hardware sequenziale a 8 bit per la rilevazione acustica e il tracciamento temporale di droni, che combina quantizzazione adattiva, pruning strutturato ed esecuzione seriale su FPGA e ASIC per ottenere un'inferenza a bassa energia e bassa latenza senza ricorrere a massiccia parallelizzazione.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

Il paper propone A3Point, un framework di apprendimento latente adattivo che migliora la segmentazione semantica delle nuvole di punti LiDAR in condizioni meteorologiche avverse, superando i limiti delle tecniche di aumento esistenti grazie a un meccanismo che distingue e gestisce separatamente la confusione semantica e lo spostamento semantico.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Il paper introduce MCMR, un nuovo benchmark su larga scala per la ricerca multimodale fine-grained e multi-condizionale che valuta la capacità dei modelli di allineare query complesse a più vincoli interagenti tra testo e immagine, rivelando asimmetrie modali e l'efficacia dei reranker basati su MLLM nel migliorare la corrispondenza dettagliata.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Questo lavoro introduce AesEval-Bench, il primo framework sistematico per la valutazione dell'estetica del design grafico tramite modelli visione-linguaggio, presentando un benchmark completo, una valutazione comparativa e un dataset di addestramento per colmare il divario tra le capacità attuali dei modelli e le esigenze umane di giudizio estetico.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

Il paper introduce V-SONAR, un nuovo spazio di embedding unificato visione-linguaggio esteso da SONAR che, tramite un allineamento post-hoc e l'addestramento del modello V-LCM, raggiunge prestazioni all'avanguardia nel captioning e nel question answering multilingue, superando significativamente i modelli esistenti in 61 su 62 lingue testate.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

Il paper introduce il framework DP-RGMI per analizzare come la privacy differenziale degrada le prestazioni nell'analisi di immagini mediche, rivelando che tale impatto deriva principalmente da un divario nell'utilizzo delle rappresentazioni piuttosto che da una semplice perdita di separabilità lineare, offrendo così nuovi strumenti per diagnosticare i fallimenti legati alla privacy e selezionare modelli ottimali.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

Il lavoro presenta StrokeDiff, un framework basato su modelli di diffusione con regolarizzazione liscia che genera pennellate simili a quelle umane partendo da un piccolo dataset, consentendo una creazione di contenuti multimediali espressiva e controllabile.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

Il paper presenta "Egocentric Co-Pilot", un sistema di occhiali intelligenti basato su agenti AI web-nativi e neuro-simbolici che, integrando ragionamento temporale e compressione gerarchica del contesto, offre assistenza contestuale in tempo reale per migliorare l'accessibilità e l'inclusione sociale.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

Il paper introduce GroundedSurg, il primo benchmark per l'ancoraggio chirurgico condizionato dal linguaggio che valuta la capacità dei modelli di localizzare istanze specifiche di strumenti chirurgici basandosi su descrizioni naturali, colmando così il divario tra la segmentazione categoriale esistente e le esigenze di ragionamento visivo-linguistico clinicamente realistiche.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

Il paper presenta GuiDINO, un framework che posiziona i modelli fondazionali visivi come generatori di guida visiva per la segmentazione medica, migliorando le prestazioni attraverso una maschera spaziale derivata da DINOv3 che guida architetture dedicate senza richiedere un addestramento completo.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

Il paper presenta ClinCoT, un framework che migliora i modelli linguistici-visivi medici trasformando l'ottimizzazione delle preferenze da una correzione a livello di risposta a un ragionamento guidato visivamente, riducendo le allucinazioni fattuali attraverso una generazione automatica di dati e un'ottimizzazione marginale basata su punteggi.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

Il paper propone PR-A $^2$ CL, un nuovo modello che combina l'Apprendimento Contrastivo Anomalo Augmentato e un paradigma di previsione e verifica iterativa per risolvere efficacemente il compito complesso del ragionamento sulle relazioni visive composizionali, superando gli stati dell'arte su diversi dataset.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

Il paper presenta TCD-Net, una rete basata su Vision Transformer che utilizza interventi causali guidati da un insegnante e il modello di generazione Nano Banana Pro per disaccoppiare ortogonalmente contenuto e rumore, ottenendo risultati di denoising superiori e in tempo reale.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

Il paper introduce ArtLLM, un nuovo framework basato su un modello linguistico multimodale 3D che genera asset 3D articolati di alta qualità direttamente da mesh complete, superando i limiti dei metodi esistenti nella previsione della struttura cinematica e nella sintesi della geometria delle parti.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

Il paper propone TC-SSA, un framework di compressione dei token basato sull'aggregazione semantica che risolve il collo di bottiglia computazionale delle immagini patologiche gigapixel riducendo drasticamente la sequenza di token senza sacrificare le informazioni diagnostiche critiche, ottenendo prestazioni superiori rispetto ai metodi basati sul campionamento.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

Il paper presenta ConVibNet, un framework in tempo reale che migliora il rilevamento continuo degli aghi nelle immagini ecografiche sfruttando le dipendenze temporali e una nuova funzione di perdita, ottenendo una maggiore precisione nella localizzazione della punta e nell'orientamento rispetto ai metodi esistenti.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

← Precedente Successivo →