cs.CV articoli | Gist.Science

Multimodal Integration of Human-Like Attention in Visual Question Answering

Il paper presenta MULAN, il primo metodo che integra l'attenzione umana multimodale (sia visiva che testuale) nei modelli di Visual Question Answering, ottenendo nuovi record di accuratezza sul dataset VQAv2 con un numero di parametri addestrabili ridotto dell'80% rispetto alle tecniche precedenti.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Questo studio dimostra che i modelli di visione fondazionali, in particolare BiomedCLIP, possono fungere da estrattori di caratteristiche pronti all'uso per il recupero di immagini radiologiche basato sul contenuto, offrendo prestazioni competitive rispetto ai sistemi specializzati su un vasto dataset di 1,6 milioni di immagini senza necessità di addestramento specifico.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Il paper introduce "Implicit-Zoo", un vasto dataset di funzioni implicite neurali per immagini 2D e scene 3D, creato per superare le limitazioni computazionali e di risorse, e dimostra come il suo utilizzo migliori le prestazioni in compiti di classificazione, segmentazione semantica e regressione della posa 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

Il paper introduce Waffle, una nuova strategia di fine-tuning che utilizza meccanismi di attenzione strutturale e apprendimento contrastivo per migliorare la capacità dei modelli linguistici di generare codice HTML a partire da interfacce utente visive, ottenendo risultati superiori rispetto ai metodi attuali su benchmark specifici.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

Il paper presenta RealOSR, un framework basato su diffusione per la super-risoluzione di immagini omnidirezionali in scenari reali che, grazie al modulo LaGAR per l'allineamento dei gradienti nello spazio latente, supera i limiti delle degradazioni reali e accelera l'inferenza di oltre 200 volte rispetto ai metodi precedenti.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

Il paper presenta Slot-BERT, un modello bidirezionale auto-supervisionato che supera le limitazioni computazionali e di coerenza temporale dei metodi esistenti per la scoperta di oggetti in video chirurgici lunghi, ottenendo prestazioni superiori e un'adattabilità zero-shot su diversi dataset reali.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

Questo lavoro presenta il primo framework in grado di apprendere rappresentazioni architettura-indipendenti per NeRFs eterogenei, utilizzando una Graph Meta-Network addestrata in modo non supervisionato per abilitare compiti di inferenza su modelli mai visti durante l'addestramento.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Questo lavoro presenta un approccio completamente non supervisionato basato sulla coerenza ciclica e sull'ottimizzazione bayesiana per l'annotazione sematica delle cellule in immagini microscopiche 3D di *C. elegans*, permettendo la creazione del primo atlante non supervisionato dell'organismo e superando le limitazioni dei metodi supervisionati attuali.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

Questo studio propone una strategia di difesa in una sola fase basata su GAN, efficiente e agnostica rispetto al modello, che migliora significativamente l'accuratezza della classificazione dei segnali stradali negli veicoli autonomi contro gli attacchi di patch avversarie.

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Il paper presenta LaGoVAD, un nuovo paradigma e modello per la rilevazione di anomalie video in ambienti open-world guidati dal linguaggio, supportato dal dataset PreVAD, che supera i limiti delle definizioni fisse delle anomalie consentendo adattamenti dinamici tramite descrizioni testuali fornite dagli utenti.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

Il paper presenta SwD, un framework di distillazione per modelli di diffusione che, combinando una generazione progressiva per ridurre i calcoli ridondanti e un nuovo obiettivo basato sulla discrepanza MMD a livello di patch, raggiunge velocità di campionamento superiori e qualità competitiva rispetto alle tecniche esistenti.

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

Questo lavoro presenta il primo quadro completo per la stima della posa umana 2D con privacy differenziale, combinando DP-SGD proiettato e privacy differenziale delle caratteristiche per ottenere un compromesso ottimale tra protezione della privacy e accuratezza del modello sul dataset MPII.

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Il paper presenta ANSE, un framework che migliora la qualità e la coerenza temporale della generazione di video tramite modelli di diffusione selezionando attivamente il rumore iniziale più promettente analizzando l'incertezza basata sull'attenzione del modello stesso.

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

Il paper presenta SABER, un framework innovativo che genera oggetti avversariali 3D universali e non invasivi, garantendo coerenza spaziale e temporale per valutare in modo realistico la robustezza dei rilevatori di oggetti 3D in vista dall'alto (BEV) utilizzati nei sistemi di guida autonoma.

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

Questo articolo propone l'Interaction Field Matching (IFM), una generalizzazione dell'Electrostatic Field Matching che supera le sue limitazioni modellando campi di interazione ispirati alla fisica delle particelle, dimostrando così efficacia in vari compiti di trasferimento dati.

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Il paper presenta HSSBench, un benchmark multilingue composto da oltre 13.000 campioni e sviluppato con un nuovo pipeline di generazione dati collaborativa, progettato per valutare e stimolare le capacità di ragionamento interdisciplinare dei Modelli Linguistici Multimodali nel campo delle Scienze Umane e Sociali, un'area attualmente sottorappresentata nelle valutazioni esistenti.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Il lavoro presenta Frame Guidance, un metodo senza addestramento che abilita il controllo a livello di fotogramma nella generazione video tramite l'elaborazione di segnali come fotogrammi chiave o schizzi, riducendo drasticamente l'uso di memoria e garantendo coerenza globale senza richiedere il riaddestramento dei modelli.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Il paper introduce Perception-R1, un metodo che migliora le capacità di ragionamento multimodale dei modelli MLLM attraverso un nuovo premio di percezione visiva basato sulla coerenza tra le annotazioni testuali e le risposte generate, ottenendo prestazioni all'avanguardia con un dataset di addestramento ridotto.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

Il paper introduce StreamSplat, un framework feed-forward che ricostruisce istantaneamente scene 3D dinamiche da flussi video non calibrati mediante tre innovazioni chiave, offrendo prestazioni superiori e un'accelerazione di 1200 volte rispetto ai metodi basati su ottimizzazione.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Il paper propone ECAD, un algoritmo genetico che ottimizza automaticamente le strategie di caching per accelerare l'inferenza dei modelli di diffusione senza modificare i parametri, garantendo significativi miglioramenti nella velocità e nel compromesso qualità-velocità rispetto agli approcci precedenti.

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

← Precedente Successivo →