cs.CV articoli | Gist.Science

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Il paper presenta la AgrI Challenge, una competizione incentrata sui dati che introduce la validazione cross-team per valutare la generalizzazione dei modelli di visione artificiale agricola, dimostrando che l'addestramento collaborativo su dataset raccolti indipendentemente riduce drasticamente il divario di prestazione rispetto all'addestramento su singola fonte.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Il paper presenta NT-Diffusion, un modello di diffusione gerarchico che ottimizza la previsione probabilistica del rischio di incendi su lunghi orizzonti temporali condividendo le fasi iniziali di denoising per ridurre i costi computazionali senza compromettere l'accuratezza.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

Lo studio dimostra che l'apprendimento di compiti visivi nella corteccia V4 dei macachi aumenta la ridondanza delle risposte neurali, supportando l'ipotesi bayesiana secondo cui il cervello ottimizza l'elaborazione sensoriale attraverso un processo inferenziale generativo che distribuisce le informazioni tra i neuroni.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Il paper introduce AQuA, un dataset fine-grained che classifica le domande visive ambigue in quattro livelli e addestra i modelli Vision-Language a generare risposte strategiche adattive, superando le capacità degli attuali sistemi nel gestire l'incertezza e nel richiedere chiarimenti quando necessario.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Questo studio propone un modello a imbuto di concetti 3D interpretabile che integra caratteristiche morfologiche ed emodinamiche per classificare gli aneurismi cerebrali con alta accuratezza e trasparenza clinica, superando i limiti dei modelli "black-box".

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

Il rapporto tecnico introduce VIVECaption, un approccio sistematico a due facce che migliora la qualità delle didascalie per i modelli generativi tramite una tassonomia di metriche di valutazione, la creazione di dataset standardizzati e l'allineamento del modello, offrendo una soluzione pratica per dati di addestramento di alta qualità e privi di problemi di copyright.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Questo studio colma una lacuna nella diagnostica dentale digitale proponendo un nuovo approccio per generare didascalie specifiche per singoli denti tramite modelli visione-linguaggio, superando i limiti dei dataset esistenti che si concentrano su immagini dell'intera bocca o su patologie isolate.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Il paper presenta UnSCAR, un nuovo paradigma di ripristino delle immagini universale che, grazie a un'architettura a miscela di esperti multi-ramo, risolve i problemi di instabilità e dimenticanza delle conoscenze nell'apprendimento congiunto, consentendo un adattamento scalabile, controllabile e robusto a oltre sedici degradazioni e a domini non visti.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Il paper presenta QdaVPR, un nuovo modello di riconoscimento dei luoghi visivo basato su query e agnostico rispetto al dominio, che utilizza un apprendimento avversariale duale e supervisione triplette su dati sintetici per ottenere prestazioni all'avanguardia in scenari con significative variazioni di dominio.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Il paper propone DTPSR, un nuovo framework di super-risoluzione basato su diffusione che utilizza priors testuali disaccoppiati su dimensioni spaziali e frequenziali, supportato dal dataset DisText-SR, per migliorare il controllo semantico e la qualità percettiva nella ricostruzione di immagini ad alta risoluzione.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Questo lavoro presenta AndroidWorld-Generalization, un benchmark e un sistema di apprendimento per rinforzo basato su GRPO, per valutare e migliorare la capacità di generalizzazione zero-shot degli agenti mobili VLM su istanze, template e applicazioni non visti, dimostrando significativi guadagni sulle istanze ma sfide persistenti su template e app, con il rilascio completo del codice per la riproducibilità.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Il paper presenta "Data Agent", un framework end-to-end che formula la selezione dinamica dei dati come un problema di decisione sequenziale guidato da un agente che impara una politica di selezione adattiva, accelerando significativamente l'addestramento dei modelli su diverse architetture e dataset senza comprometterne le prestazioni.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Il paper introduce RPG-SAM, un nuovo framework di segmentazione polipi one-shot senza addestramento che risolve l'eterogeneità regionale e di risposta attraverso l'estrazione di prototipi pesati per affidabilità, la selezione adattiva geometrica delle soglie e un ciclo di raffinamento iterativo, ottenendo un miglioramento del 5,56% di mIoU sul dataset Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

Il paper presenta DogWeave, un modello basato su un singolo'immagine RGB che ricostruisce cani 3D ad alta fedeltà, affinando la geometria tramite normali potenziate da diffusione e generando texture coerenti con l'inpainting condizionato per superare le sfide dell'occlusione e dei dettagli fini.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Il paper presenta Med-Evo, un innovativo framework di auto-evoluzione per modelli linguistici multimodali medici che, sfruttando l'apprendimento per rinforzo senza etichette tramite una strategia di pseudo-etichettatura guidata dalle caratteristiche e un sistema di ricompensa ibrido, migliora le prestazioni del modello su dati di test non annotati senza richiedere ulteriori dati etichettati.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Il paper presenta SLNet, una rete di riconoscimento per nuvole di punti 3D estremamente leggera e adattiva geometricamente che, grazie a componenti innovativi come NAPE e GMU, raggiunge prestazioni competitive su diversi benchmark con un numero di parametri e un costo computazionale drasticamente inferiori rispetto agli stati dell'arte.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Questo articolo offre un'analisi tecnica completa dell'evoluzione dei modelli di generazione delle immagini, esaminando le architetture fondamentali, le tecniche di ottimizzazione, le limitazioni e le recenti applicazioni nella generazione video, con un focus particolare sulla sicurezza e sulla responsabilità nel loro utilizzo.

Rouzbeh Shirvani2026-03-10💬 cs.CL

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

SIGMAE è un modello fondazionale per il telerilevamento multispettrale che migliora l'apprendimento delle rappresentazioni spaziali e spettrali integrando indici spettrali di dominio in una strategia di mascheramento dinamico dei token guidata dalla salienza semantica, superando le prestazioni dei modelli preesistenti su diverse attività di classificazione e rilevamento.

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

Il paper propone MonoSTL, un approccio di apprendimento selettivo che risolve il problema del trasferimento negativo nella distillazione cross-modale per la rilevazione 3D da singola immagine, integrando l'incertezza di profondità per selezionare efficacemente le caratteristiche e le relazioni positive da LiDAR e ottenendo così le migliori prestazioni rispetto agli stati dell'arte su KITTI e NuScenes.

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Questo lavoro presenta ThingiPrint, un nuovo dataset che associa modelli CAD a fotografie di oggetti stampati in 3D, e dimostra che un approccio di classificazione basato su prototipi con fine-tuning contrastivo permette di identificare nuovi oggetti senza necessità di riaddestramento, migliorando l'automazione nei flussi di lavoro post-produzione.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs

← Precedente Successivo →