cs.CV articoli | Gist.Science

SSR: A Generic Framework for Text-Aided Map Compression for Localization

Il paper propone SSR, un framework generico di compressione delle mappe che combina descrizioni testuali e piccoli vettori di caratteristiche visive per ridurre significativamente i costi di memoria e larghezza di banda mantenendo un'elevata precisione nella localizzazione robotica.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Questo studio multicentrico valuta l'applicabilità delle tecniche di deep learning per la rilevazione e la segmentazione dei polipi colici in tempo reale, dimostrando come l'integrazione di dati sequenziali e informazioni temporali, ottenuti attraverso una collaborazione tra data scientist ed esperti gastroenterologi, migliori significativamente la precisione diagnostica riducendo i tassi di rilevamento mancato.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Il paper introduce CubeComposer, un modello di diffusione autoregressivo spaziotemporale innovativo che genera nativamente video 360° in 4K partendo da input prospettici, superando i limiti computazionali dei metodi esistenti attraverso una strategia di decomposizione in cubemap e tecniche di gestione del contesto ottimizzate per garantire coerenza visiva e assenza di discontinuità.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

Il paper presenta MMFA, un nuovo metodo non supervisionato che, attraverso l'apprendimento rappresentativo e un nuovo calcolo dei punti chiave, decoppia l'identità dal movimento per abilitare la generazione controllata e l'interpolazione continua di espressioni facciali realistiche.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

Il paper presenta PromptAvatar, un framework basato su modelli di diffusione duali e un nuovo dataset su larga scala che genera avatar 3D ad alta fedeltà da prompt testuali o immagini in meno di 10 secondi, superando i limiti di controllo fine e di efficienza computazionale dei metodi esistenti.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Il documento presenta CRESTomics, un nuovo modello di classificazione additiva basato su kernel che, analizzando 500 placche carotidee del trial CREST-2 tramite ecografia B-mode, identifica in modo accurato e interpretabile marcatori radiomici associati al rischio clinico di ictus.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Il paper presenta MOO, un dataset sintetico su larga scala di 1.000 bovini catturati da 128 angolazioni diverse, progettato per analizzare l'impatto delle variazioni di punto di vista sul riconoscimento animale e dimostrare come i priore geometrici sintetici possano migliorare le prestazioni nei compiti di re-identificazione tra vista aerea e terrestre.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Il paper introduce SPRINT, il primo framework di apprendimento incrementale a pochi esempi (FSCIL) progettato specificamente per dati tabulari, che sfrutta l'abbondanza di dati non etichettati e i bassi costi di archiviazione per raggiungere prestazioni all'avanguardia in diversi domini reali senza dimenticare le conoscenze precedenti.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Il paper presenta un framework scalabile per valutare il realismo delle aumentazioni sintetiche di condizioni ambientali (come nebbia, pioggia e notte) nelle immagini, dimostrando che i metodi di intelligenza artificiale generativa superano significativamente gli approcci basati su regole, raggiungendo o superando le prestazioni delle immagini reali per la maggior parte delle condizioni.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Il paper presenta Pointer-CAD, un nuovo framework basato su LLM che unifica la rappresentazione B-Rep e le sequenze di comandi tramite una selezione di entità geometriche basata su puntatori, risolvendo così le limitazioni nella generazione di modelli CAD complessi e riducendo gli errori topologici derivanti dalla discretizzazione.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Il paper presenta ArtHOI, il primo framework zero-shot che sintetizza interazioni umane con oggetti articolati fisicamente plausibili formulando il problema come una ricostruzione 4D da video monoculari generati da modelli di diffusione, superando i limiti delle approcci precedenti basati su oggetti rigidi.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Questo studio confronta modelli generativi come DDPM, LDM e Flow Matching per la sintesi di risonanza magnetica cardiaca, dimostrando che i modelli basati su diffusione offrono il miglior compromesso tra fedeltà dell'immagine, utilità clinica e privacy, specialmente in scenari con dati limitati.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

Il paper presenta HOSO, un metodo semplice e privo di validazione per l'adattamento Few-Shot di CLIP che apprende automaticamente il rapporto di blending utilizzando un set di hold-out a uno-shot, superando significativamente le prestazioni dei metodi baselines su 11 dataset standard.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

Questo studio dimostra che l'integrazione di immagini sintetiche generate tramite DreamBooth e Stable Diffusion con dati reali migliora l'accuratezza e la generalizzazione dei modelli di attribuzione dell'autore nelle opere d'arte, superando le limitazioni legate alla scarsità di dati.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Questo lavoro propone un metodo efficiente dal punto di vista dei dati che utilizza un modello linguistico per generare descrizioni controfattuali e prevedere con alta accuratezza le prestazioni zero-shot dei modelli fondazione visione-linguaggio su domini sottorappresentati, permettendo così di valutare la necessità di annotazione prima di investire risorse significative.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Il paper propone RANGER, un framework per la generazione di referti patologici basato su un decoder con Mixture-of-Experts a gate sparsamente attivato e un modulo di re-ranking adattivo per il recupero delle conoscenze, che supera i limiti degli approcci esistenti migliorando significativamente le metriche di generazione linguistica sul dataset PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Il paper presenta FocusGraph, un framework che migliora la comprensione di video lunghi per agenti intelligenti selezionando frame chiave tramite un selettore basato su grafi e un metodo di ritenzione sparsa, ottenendo risultati all'avanguardia riducendo al contempo i tempi di inferenza.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Helios è il primo modello di generazione video da 14 miliardi di parametri in grado di produrre video della durata di minuti in tempo reale su una singola GPU H100, superando le tecniche standard di accelerazione e anti-drifting grazie a strategie di addestramento innovative e ottimizzazioni infrastrutturali che ne garantiscono efficienza e alta qualità.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Il paper introduce TaxonRL, un approccio di apprendimento per rinforzo che utilizza ricompense intermedie per decomporre il ragionamento visivo in livelli tassonomici gerarchici, ottenendo così un'accuratezza superiore all'uomo e una maggiore interpretabilità nella classificazione di specie visivamente simili.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Il paper introduce ZipMap, un modello feed-forward stato-dipendente che, grazie all'addestramento al momento del test, ricostruisce scene 3D da grandi collezioni di immagini in tempo lineare con una velocità superiore di oltre 20 volte rispetto ai metodi attuali, mantenendo al contempo un'accuratezza pari o superiore.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

← Precedente Successivo →