cs.CV articoli | Gist.Science

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Il paper presenta ArtHOI, il primo framework zero-shot che sintetizza interazioni umane con oggetti articolati fisicamente plausibili formulando il problema come una ricostruzione 4D da video monoculari generati da modelli di diffusione, superando i limiti delle approcci precedenti basati su oggetti rigidi.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Questo studio confronta modelli generativi come DDPM, LDM e Flow Matching per la sintesi di risonanza magnetica cardiaca, dimostrando che i modelli basati su diffusione offrono il miglior compromesso tra fedeltà dell'immagine, utilità clinica e privacy, specialmente in scenari con dati limitati.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Il paper presenta HOSO, un metodo semplice e privo di validazione per l'adattamento Few-Shot di CLIP che apprende automaticamente il rapporto di blending utilizzando un set di hold-out a uno-shot, superando significativamente le prestazioni dei metodi baselines su 11 dataset standard.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Questo studio dimostra che l'integrazione di immagini sintetiche generate tramite DreamBooth e Stable Diffusion con dati reali migliora l'accuratezza e la generalizzazione dei modelli di attribuzione dell'autore nelle opere d'arte, superando le limitazioni legate alla scarsità di dati.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Questo lavoro propone un metodo efficiente dal punto di vista dei dati che utilizza un modello linguistico per generare descrizioni controfattuali e prevedere con alta accuratezza le prestazioni zero-shot dei modelli fondazione visione-linguaggio su domini sottorappresentati, permettendo così di valutare la necessità di annotazione prima di investire risorse significative.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Il paper propone RANGER, un framework per la generazione di referti patologici basato su un decoder con Mixture-of-Experts a gate sparsamente attivato e un modulo di re-ranking adattivo per il recupero delle conoscenze, che supera i limiti degli approcci esistenti migliorando significativamente le metriche di generazione linguistica sul dataset PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Il paper presenta FocusGraph, un framework che migliora la comprensione di video lunghi per agenti intelligenti selezionando frame chiave tramite un selettore basato su grafi e un metodo di ritenzione sparsa, ottenendo risultati all'avanguardia riducendo al contempo i tempi di inferenza.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Helios è il primo modello di generazione video da 14 miliardi di parametri in grado di produrre video della durata di minuti in tempo reale su una singola GPU H100, superando le tecniche standard di accelerazione e anti-drifting grazie a strategie di addestramento innovative e ottimizzazioni infrastrutturali che ne garantiscono efficienza e alta qualità.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Il paper introduce TaxonRL, un approccio di apprendimento per rinforzo che utilizza ricompense intermedie per decomporre il ragionamento visivo in livelli tassonomici gerarchici, ottenendo così un'accuratezza superiore all'uomo e una maggiore interpretabilità nella classificazione di specie visivamente simili.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Il paper introduce ZipMap, un modello feed-forward stato-dipendente che, grazie all'addestramento al momento del test, ricostruisce scene 3D da grandi collezioni di immagini in tempo lineare con una velocità superiore di oltre 20 volte rispetto ai metodi attuali, mantenendo al contempo un'accuratezza pari o superiore.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

Il paper presenta SimpliHuMoN, un modello transformer semplice ed efficace che unifica la previsione di traiettorie e pose umane in un unico approccio end-to-end, ottenendo risultati all'avanguardia su diversi dataset di benchmark.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Questo articolo introduce i "Thought Flow Nets", un metodo ispirato alla dialettica hegeliana che permette ai modelli di generare una sequenza di pensieri auto-correttivi per migliorare le prestazioni nelle risposte a domande e la percezione umana rispetto alle previsioni tradizionali a output singolo.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Il paper presenta VQA-MHUG, un nuovo dataset di sguardo umano multimodale che dimostra per la prima volta come una maggiore correlazione tra l'attenzione dei modelli neurali e quella umana sul testo sia un predittore significativo delle prestazioni nel Visual Question Answering, suggerendo la necessità di migliorare i meccanismi di attenzione testuale nelle architetture visione-linguaggio.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

Il paper presenta MULAN, il primo metodo che integra l'attenzione umana multimodale (sia visiva che testuale) nei modelli di Visual Question Answering, ottenendo nuovi record di accuratezza sul dataset VQAv2 con un numero di parametri addestrabili ridotto dell'80% rispetto alle tecniche precedenti.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Questo studio dimostra che i modelli di visione fondazionali, in particolare BiomedCLIP, possono fungere da estrattori di caratteristiche pronti all'uso per il recupero di immagini radiologiche basato sul contenuto, offrendo prestazioni competitive rispetto ai sistemi specializzati su un vasto dataset di 1,6 milioni di immagini senza necessità di addestramento specifico.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Il paper introduce "Implicit-Zoo", un vasto dataset di funzioni implicite neurali per immagini 2D e scene 3D, creato per superare le limitazioni computazionali e di risorse, e dimostra come il suo utilizzo migliori le prestazioni in compiti di classificazione, segmentazione semantica e regressione della posa 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

Il paper introduce Waffle, una nuova strategia di fine-tuning che utilizza meccanismi di attenzione strutturale e apprendimento contrastivo per migliorare la capacità dei modelli linguistici di generare codice HTML a partire da interfacce utente visive, ottenendo risultati superiori rispetto ai metodi attuali su benchmark specifici.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

Il paper presenta RealOSR, un framework basato su diffusione per la super-risoluzione di immagini omnidirezionali in scenari reali che, grazie al modulo LaGAR per l'allineamento dei gradienti nello spazio latente, supera i limiti delle degradazioni reali e accelera l'inferenza di oltre 200 volte rispetto ai metodi precedenti.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

Il paper presenta Slot-BERT, un modello bidirezionale auto-supervisionato che supera le limitazioni computazionali e di coerenza temporale dei metodi esistenti per la scoperta di oggetti in video chirurgici lunghi, ottenendo prestazioni superiori e un'adattabilità zero-shot su diversi dataset reali.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

Questo lavoro presenta il primo framework in grado di apprendere rappresentazioni architettura-indipendenti per NeRFs eterogenei, utilizzando una Graph Meta-Network addestrata in modo non supervisionato per abilitare compiti di inferenza su modelli mai visti durante l'addestramento.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

← Precedente Successivo →