cs.CV articoli | Gist.Science

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Il documento presenta CRESTomics, un nuovo modello di classificazione additiva basato su kernel che, analizzando 500 placche carotidee del trial CREST-2 tramite ecografia B-mode, identifica in modo accurato e interpretabile marcatori radiomici associati al rischio clinico di ictus.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Il paper presenta MOO, un dataset sintetico su larga scala di 1.000 bovini catturati da 128 angolazioni diverse, progettato per analizzare l'impatto delle variazioni di punto di vista sul riconoscimento animale e dimostrare come i priore geometrici sintetici possano migliorare le prestazioni nei compiti di re-identificazione tra vista aerea e terrestre.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Il paper introduce SPRINT, il primo framework di apprendimento incrementale a pochi esempi (FSCIL) progettato specificamente per dati tabulari, che sfrutta l'abbondanza di dati non etichettati e i bassi costi di archiviazione per raggiungere prestazioni all'avanguardia in diversi domini reali senza dimenticare le conoscenze precedenti.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Il paper presenta un framework scalabile per valutare il realismo delle aumentazioni sintetiche di condizioni ambientali (come nebbia, pioggia e notte) nelle immagini, dimostrando che i metodi di intelligenza artificiale generativa superano significativamente gli approcci basati su regole, raggiungendo o superando le prestazioni delle immagini reali per la maggior parte delle condizioni.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Il paper presenta Pointer-CAD, un nuovo framework basato su LLM che unifica la rappresentazione B-Rep e le sequenze di comandi tramite una selezione di entità geometriche basata su puntatori, risolvendo così le limitazioni nella generazione di modelli CAD complessi e riducendo gli errori topologici derivanti dalla discretizzazione.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Il paper presenta ArtHOI, il primo framework zero-shot che sintetizza interazioni umane con oggetti articolati fisicamente plausibili formulando il problema come una ricostruzione 4D da video monoculari generati da modelli di diffusione, superando i limiti delle approcci precedenti basati su oggetti rigidi.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Questo studio confronta modelli generativi come DDPM, LDM e Flow Matching per la sintesi di risonanza magnetica cardiaca, dimostrando che i modelli basati su diffusione offrono il miglior compromesso tra fedeltà dell'immagine, utilità clinica e privacy, specialmente in scenari con dati limitati.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Il paper presenta HOSO, un metodo semplice e privo di validazione per l'adattamento Few-Shot di CLIP che apprende automaticamente il rapporto di blending utilizzando un set di hold-out a uno-shot, superando significativamente le prestazioni dei metodi baselines su 11 dataset standard.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Questo studio dimostra che l'integrazione di immagini sintetiche generate tramite DreamBooth e Stable Diffusion con dati reali migliora l'accuratezza e la generalizzazione dei modelli di attribuzione dell'autore nelle opere d'arte, superando le limitazioni legate alla scarsità di dati.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Questo lavoro propone un metodo efficiente dal punto di vista dei dati che utilizza un modello linguistico per generare descrizioni controfattuali e prevedere con alta accuratezza le prestazioni zero-shot dei modelli fondazione visione-linguaggio su domini sottorappresentati, permettendo così di valutare la necessità di annotazione prima di investire risorse significative.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Il paper propone RANGER, un framework per la generazione di referti patologici basato su un decoder con Mixture-of-Experts a gate sparsamente attivato e un modulo di re-ranking adattivo per il recupero delle conoscenze, che supera i limiti degli approcci esistenti migliorando significativamente le metriche di generazione linguistica sul dataset PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Il paper presenta FocusGraph, un framework che migliora la comprensione di video lunghi per agenti intelligenti selezionando frame chiave tramite un selettore basato su grafi e un metodo di ritenzione sparsa, ottenendo risultati all'avanguardia riducendo al contempo i tempi di inferenza.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Helios è il primo modello di generazione video da 14 miliardi di parametri in grado di produrre video della durata di minuti in tempo reale su una singola GPU H100, superando le tecniche standard di accelerazione e anti-drifting grazie a strategie di addestramento innovative e ottimizzazioni infrastrutturali che ne garantiscono efficienza e alta qualità.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Il paper introduce TaxonRL, un approccio di apprendimento per rinforzo che utilizza ricompense intermedie per decomporre il ragionamento visivo in livelli tassonomici gerarchici, ottenendo così un'accuratezza superiore all'uomo e una maggiore interpretabilità nella classificazione di specie visivamente simili.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Il paper introduce ZipMap, un modello feed-forward stato-dipendente che, grazie all'addestramento al momento del test, ricostruisce scene 3D da grandi collezioni di immagini in tempo lineare con una velocità superiore di oltre 20 volte rispetto ai metodi attuali, mantenendo al contempo un'accuratezza pari o superiore.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

Il paper presenta SimpliHuMoN, un modello transformer semplice ed efficace che unifica la previsione di traiettorie e pose umane in un unico approccio end-to-end, ottenendo risultati all'avanguardia su diversi dataset di benchmark.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Questo articolo introduce i "Thought Flow Nets", un metodo ispirato alla dialettica hegeliana che permette ai modelli di generare una sequenza di pensieri auto-correttivi per migliorare le prestazioni nelle risposte a domande e la percezione umana rispetto alle previsioni tradizionali a output singolo.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Il paper presenta VQA-MHUG, un nuovo dataset di sguardo umano multimodale che dimostra per la prima volta come una maggiore correlazione tra l'attenzione dei modelli neurali e quella umana sul testo sia un predittore significativo delle prestazioni nel Visual Question Answering, suggerendo la necessità di migliorare i meccanismi di attenzione testuale nelle architetture visione-linguaggio.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

Il paper presenta MULAN, il primo metodo che integra l'attenzione umana multimodale (sia visiva che testuale) nei modelli di Visual Question Answering, ottenendo nuovi record di accuratezza sul dataset VQAv2 con un numero di parametri addestrabili ridotto dell'80% rispetto alle tecniche precedenti.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Questo studio dimostra che i modelli di visione fondazionali, in particolare BiomedCLIP, possono fungere da estrattori di caratteristiche pronti all'uso per il recupero di immagini radiologiche basato sul contenuto, offrendo prestazioni competitive rispetto ai sistemi specializzati su un vasto dataset di 1,6 milioni di immagini senza necessità di addestramento specifico.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

← Precedente Successivo →