cs.CV articoli | Gist.Science

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Il paper introduce TaxonRL, un approccio di apprendimento per rinforzo che utilizza ricompense intermedie per decomporre il ragionamento visivo in livelli tassonomici gerarchici, ottenendo così un'accuratezza superiore all'uomo e una maggiore interpretabilità nella classificazione di specie visivamente simili.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Il paper introduce ZipMap, un modello feed-forward stato-dipendente che, grazie all'addestramento al momento del test, ricostruisce scene 3D da grandi collezioni di immagini in tempo lineare con una velocità superiore di oltre 20 volte rispetto ai metodi attuali, mantenendo al contempo un'accuratezza pari o superiore.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

Il paper presenta SimpliHuMoN, un modello transformer semplice ed efficace che unifica la previsione di traiettorie e pose umane in un unico approccio end-to-end, ottenendo risultati all'avanguardia su diversi dataset di benchmark.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Questo articolo introduce i "Thought Flow Nets", un metodo ispirato alla dialettica hegeliana che permette ai modelli di generare una sequenza di pensieri auto-correttivi per migliorare le prestazioni nelle risposte a domande e la percezione umana rispetto alle previsioni tradizionali a output singolo.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Il paper presenta VQA-MHUG, un nuovo dataset di sguardo umano multimodale che dimostra per la prima volta come una maggiore correlazione tra l'attenzione dei modelli neurali e quella umana sul testo sia un predittore significativo delle prestazioni nel Visual Question Answering, suggerendo la necessità di migliorare i meccanismi di attenzione testuale nelle architetture visione-linguaggio.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

Il paper presenta MULAN, il primo metodo che integra l'attenzione umana multimodale (sia visiva che testuale) nei modelli di Visual Question Answering, ottenendo nuovi record di accuratezza sul dataset VQAv2 con un numero di parametri addestrabili ridotto dell'80% rispetto alle tecniche precedenti.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Questo studio dimostra che i modelli di visione fondazionali, in particolare BiomedCLIP, possono fungere da estrattori di caratteristiche pronti all'uso per il recupero di immagini radiologiche basato sul contenuto, offrendo prestazioni competitive rispetto ai sistemi specializzati su un vasto dataset di 1,6 milioni di immagini senza necessità di addestramento specifico.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Il paper introduce "Implicit-Zoo", un vasto dataset di funzioni implicite neurali per immagini 2D e scene 3D, creato per superare le limitazioni computazionali e di risorse, e dimostra come il suo utilizzo migliori le prestazioni in compiti di classificazione, segmentazione semantica e regressione della posa 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

Il paper introduce Waffle, una nuova strategia di fine-tuning che utilizza meccanismi di attenzione strutturale e apprendimento contrastivo per migliorare la capacità dei modelli linguistici di generare codice HTML a partire da interfacce utente visive, ottenendo risultati superiori rispetto ai metodi attuali su benchmark specifici.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

Il paper presenta RealOSR, un framework basato su diffusione per la super-risoluzione di immagini omnidirezionali in scenari reali che, grazie al modulo LaGAR per l'allineamento dei gradienti nello spazio latente, supera i limiti delle degradazioni reali e accelera l'inferenza di oltre 200 volte rispetto ai metodi precedenti.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

Il paper presenta Slot-BERT, un modello bidirezionale auto-supervisionato che supera le limitazioni computazionali e di coerenza temporale dei metodi esistenti per la scoperta di oggetti in video chirurgici lunghi, ottenendo prestazioni superiori e un'adattabilità zero-shot su diversi dataset reali.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

Questo lavoro presenta il primo framework in grado di apprendere rappresentazioni architettura-indipendenti per NeRFs eterogenei, utilizzando una Graph Meta-Network addestrata in modo non supervisionato per abilitare compiti di inferenza su modelli mai visti durante l'addestramento.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Questo lavoro presenta un approccio completamente non supervisionato basato sulla coerenza ciclica e sull'ottimizzazione bayesiana per l'annotazione sematica delle cellule in immagini microscopiche 3D di *C. elegans*, permettendo la creazione del primo atlante non supervisionato dell'organismo e superando le limitazioni dei metodi supervisionati attuali.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

Questo studio propone una strategia di difesa in una sola fase basata su GAN, efficiente e agnostica rispetto al modello, che migliora significativamente l'accuratezza della classificazione dei segnali stradali negli veicoli autonomi contro gli attacchi di patch avversarie.

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Il paper presenta LaGoVAD, un nuovo paradigma e modello per la rilevazione di anomalie video in ambienti open-world guidati dal linguaggio, supportato dal dataset PreVAD, che supera i limiti delle definizioni fisse delle anomalie consentendo adattamenti dinamici tramite descrizioni testuali fornite dagli utenti.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

Il paper presenta SwD, un framework di distillazione per modelli di diffusione che, combinando una generazione progressiva per ridurre i calcoli ridondanti e un nuovo obiettivo basato sulla discrepanza MMD a livello di patch, raggiunge velocità di campionamento superiori e qualità competitiva rispetto alle tecniche esistenti.

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

Questo lavoro presenta il primo quadro completo per la stima della posa umana 2D con privacy differenziale, combinando DP-SGD proiettato e privacy differenziale delle caratteristiche per ottenere un compromesso ottimale tra protezione della privacy e accuratezza del modello sul dataset MPII.

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Il paper presenta ANSE, un framework che migliora la qualità e la coerenza temporale della generazione di video tramite modelli di diffusione selezionando attivamente il rumore iniziale più promettente analizzando l'incertezza basata sull'attenzione del modello stesso.

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

Il paper presenta SABER, un framework innovativo che genera oggetti avversariali 3D universali e non invasivi, garantendo coerenza spaziale e temporale per valutare in modo realistico la robustezza dei rilevatori di oggetti 3D in vista dall'alto (BEV) utilizzati nei sistemi di guida autonoma.

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

Questo articolo propone l'Interaction Field Matching (IFM), una generalizzazione dell'Electrostatic Field Matching che supera le sue limitazioni modellando campi di interazione ispirati alla fisica delle particelle, dimostrando così efficacia in vari compiti di trasferimento dati.

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

← Precedente Successivo →