cs.CV articoli | Gist.Science

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Il paper introduce StructSAM, un framework di fusione e recupero dei token che preserva struttura e spettro per ottimizzare i Segment Anything Models (SAM) riducendo significativamente i costi computazionali senza compromettere la precisione dei contorni nelle applicazioni naturali e mediche.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

Il paper presenta Faster-HEAL, un framework collaborativo leggero e rispettoso della privacy che risolve il problema dell'eterogeneità dei veicoli autonomi allineando le caratteristiche tramite prompt visivi a basso rango e fusione piramidale, ottenendo prestazioni superiori con un costo computazionale ridotto.

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Questo articolo presenta un framework leggero basato su gemello digitale per il tracciamento dei veicoli e la previsione delle collisioni, progettato per l'implementazione su dispositivi edge che utilizza solo il rilevamento degli oggetti e mappe di percorso offline per raggiungere un'accuratezza dell'88% con un basso costo computazionale.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Il paper presenta la AgrI Challenge, una competizione incentrata sui dati che introduce la validazione cross-team per valutare la generalizzazione dei modelli di visione artificiale agricola, dimostrando che l'addestramento collaborativo su dataset raccolti indipendentemente riduce drasticamente il divario di prestazione rispetto all'addestramento su singola fonte.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Il paper presenta NT-Diffusion, un modello di diffusione gerarchico che ottimizza la previsione probabilistica del rischio di incendi su lunghi orizzonti temporali condividendo le fasi iniziali di denoising per ridurre i costi computazionali senza compromettere l'accuratezza.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

Lo studio dimostra che l'apprendimento di compiti visivi nella corteccia V4 dei macachi aumenta la ridondanza delle risposte neurali, supportando l'ipotesi bayesiana secondo cui il cervello ottimizza l'elaborazione sensoriale attraverso un processo inferenziale generativo che distribuisce le informazioni tra i neuroni.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Il paper introduce AQuA, un dataset fine-grained che classifica le domande visive ambigue in quattro livelli e addestra i modelli Vision-Language a generare risposte strategiche adattive, superando le capacità degli attuali sistemi nel gestire l'incertezza e nel richiedere chiarimenti quando necessario.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Questo studio propone un modello a imbuto di concetti 3D interpretabile che integra caratteristiche morfologiche ed emodinamiche per classificare gli aneurismi cerebrali con alta accuratezza e trasparenza clinica, superando i limiti dei modelli "black-box".

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

Il rapporto tecnico introduce VIVECaption, un approccio sistematico a due facce che migliora la qualità delle didascalie per i modelli generativi tramite una tassonomia di metriche di valutazione, la creazione di dataset standardizzati e l'allineamento del modello, offrendo una soluzione pratica per dati di addestramento di alta qualità e privi di problemi di copyright.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Questo studio colma una lacuna nella diagnostica dentale digitale proponendo un nuovo approccio per generare didascalie specifiche per singoli denti tramite modelli visione-linguaggio, superando i limiti dei dataset esistenti che si concentrano su immagini dell'intera bocca o su patologie isolate.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Il paper presenta UnSCAR, un nuovo paradigma di ripristino delle immagini universale che, grazie a un'architettura a miscela di esperti multi-ramo, risolve i problemi di instabilità e dimenticanza delle conoscenze nell'apprendimento congiunto, consentendo un adattamento scalabile, controllabile e robusto a oltre sedici degradazioni e a domini non visti.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Il paper presenta QdaVPR, un nuovo modello di riconoscimento dei luoghi visivo basato su query e agnostico rispetto al dominio, che utilizza un apprendimento avversariale duale e supervisione triplette su dati sintetici per ottenere prestazioni all'avanguardia in scenari con significative variazioni di dominio.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Il paper propone DTPSR, un nuovo framework di super-risoluzione basato su diffusione che utilizza priors testuali disaccoppiati su dimensioni spaziali e frequenziali, supportato dal dataset DisText-SR, per migliorare il controllo semantico e la qualità percettiva nella ricostruzione di immagini ad alta risoluzione.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Questo lavoro presenta AndroidWorld-Generalization, un benchmark e un sistema di apprendimento per rinforzo basato su GRPO, per valutare e migliorare la capacità di generalizzazione zero-shot degli agenti mobili VLM su istanze, template e applicazioni non visti, dimostrando significativi guadagni sulle istanze ma sfide persistenti su template e app, con il rilascio completo del codice per la riproducibilità.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Il paper presenta "Data Agent", un framework end-to-end che formula la selezione dinamica dei dati come un problema di decisione sequenziale guidato da un agente che impara una politica di selezione adattiva, accelerando significativamente l'addestramento dei modelli su diverse architetture e dataset senza comprometterne le prestazioni.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Il paper introduce RPG-SAM, un nuovo framework di segmentazione polipi one-shot senza addestramento che risolve l'eterogeneità regionale e di risposta attraverso l'estrazione di prototipi pesati per affidabilità, la selezione adattiva geometrica delle soglie e un ciclo di raffinamento iterativo, ottenendo un miglioramento del 5,56% di mIoU sul dataset Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

Il paper presenta DogWeave, un modello basato su un singolo'immagine RGB che ricostruisce cani 3D ad alta fedeltà, affinando la geometria tramite normali potenziate da diffusione e generando texture coerenti con l'inpainting condizionato per superare le sfide dell'occlusione e dei dettagli fini.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Il paper presenta Med-Evo, un innovativo framework di auto-evoluzione per modelli linguistici multimodali medici che, sfruttando l'apprendimento per rinforzo senza etichette tramite una strategia di pseudo-etichettatura guidata dalle caratteristiche e un sistema di ricompensa ibrido, migliora le prestazioni del modello su dati di test non annotati senza richiedere ulteriori dati etichettati.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Il paper presenta SLNet, una rete di riconoscimento per nuvole di punti 3D estremamente leggera e adattiva geometricamente che, grazie a componenti innovativi come NAPE e GMU, raggiunge prestazioni competitive su diversi benchmark con un numero di parametri e un costo computazionale drasticamente inferiori rispetto agli stati dell'arte.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Questo articolo offre un'analisi tecnica completa dell'evoluzione dei modelli di generazione delle immagini, esaminando le architetture fondamentali, le tecniche di ottimizzazione, le limitazioni e le recenti applicazioni nella generazione video, con un focus particolare sulla sicurezza e sulla responsabilità nel loro utilizzo.

Rouzbeh Shirvani2026-03-10💬 cs.CL

← Precedente Successivo →