cs.CV articoli | Gist.Science

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Questo lavoro propone un formalismo unificato per l'aggregazione di densità basato sulle medie generalizzate, dimostrando teoricamente e validando empiricamente che solo l'intervallo $r \in [0,1]$ garantisce miglioramenti sistematici rispetto alle distribuzioni individuali, fornendo così una giustificazione rigorosa per l'uso diffuso della media lineare ( $r=1$ ) e geometrica ( $r=0$ ) negli ensemble di deep learning.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Il paper introduce Real5-OmniDocBench, il primo benchmark che ricrea fisicamente l'intero dataset OmniDocBench v1.5 in cinque scenari reali, permettendo per la prima volta un'analisi rigorosa delle cause del degrado delle prestazioni dei modelli Vision-Language nel mondo fisico e rivelando che il divario tra simulazione e realtà nel parsing documentale è ancora significativo.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

Il paper propone un metodo basato su un autoencoder variazionale specializzato e una stima della densità non parametrica per rimuovere le dipendenze indesiderate dai dati preservandone l'utilità, superando le tecniche esistenti sia non supervisionate che supervisionate.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Il paper propone DiverseDiT, un nuovo framework che migliora l'apprendimento delle rappresentazioni nei Diffusion Transformers introducendo connessioni residue lunghe e una funzione di perdita specifica per promuovere la diversità delle rappresentazioni tra i blocchi, ottenendo così prestazioni superiori e una convergenza più rapida su diversi backbones e configurazioni.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

Il paper propone DeNuC, un metodo che migliora significativamente la rilevazione e la classificazione dei nuclei nelle immagini istopatologiche disaccoppiando le due fasi per sfruttare appieno i modelli fondazionali, ottenendo prestazioni superiori con un numero di parametri addestrabili drasticamente ridotto.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

Il paper propone EmbodiedSplat, un metodo feed-forward online basato su 3DGS che permette la ricostruzione e la comprensione semantica open-vocabulary di scene 3D in tempo reale, integrando embedding CLIP 2D con caratteristiche geometriche 3D per garantire generalizzabilità e bassa memoria.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Questo articolo presenta un'architettura neurale equivariante per il colore che risolve le imperfezioni dei metodi precedenti elevando le quantità di saturazione e luminosità dall'intervallo reale al cerchio (una doppia copertura), ottenendo così una vera equivarianza che migliora le prestazioni in compiti come la classificazione fine-grained e l'imaging medico.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Il paper introduce ViterbiPlanNet, un framework innovativo che integra esplicitamente la conoscenza procedurale tramite un Livello Viterbi Differenziabile per migliorare l'efficienza dei campioni e le prestazioni nella pianificazione di video istruttivi, superando i metodi basati su modelli di grandi dimensioni con un numero significativamente inferiore di parametri.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

Il paper propone SSR, un framework generico di compressione delle mappe che combina descrizioni testuali e piccoli vettori di caratteristiche visive per ridurre significativamente i costi di memoria e larghezza di banda mantenendo un'elevata precisione nella localizzazione robotica.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Questo studio multicentrico valuta l'applicabilità delle tecniche di deep learning per la rilevazione e la segmentazione dei polipi colici in tempo reale, dimostrando come l'integrazione di dati sequenziali e informazioni temporali, ottenuti attraverso una collaborazione tra data scientist ed esperti gastroenterologi, migliori significativamente la precisione diagnostica riducendo i tassi di rilevamento mancato.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Il paper introduce CubeComposer, un modello di diffusione autoregressivo spaziotemporale innovativo che genera nativamente video 360° in 4K partendo da input prospettici, superando i limiti computazionali dei metodi esistenti attraverso una strategia di decomposizione in cubemap e tecniche di gestione del contesto ottimizzate per garantire coerenza visiva e assenza di discontinuità.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

Il paper presenta MMFA, un nuovo metodo non supervisionato che, attraverso l'apprendimento rappresentativo e un nuovo calcolo dei punti chiave, decoppia l'identità dal movimento per abilitare la generazione controllata e l'interpolazione continua di espressioni facciali realistiche.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

Il paper presenta PromptAvatar, un framework basato su modelli di diffusione duali e un nuovo dataset su larga scala che genera avatar 3D ad alta fedeltà da prompt testuali o immagini in meno di 10 secondi, superando i limiti di controllo fine e di efficienza computazionale dei metodi esistenti.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Il documento presenta CRESTomics, un nuovo modello di classificazione additiva basato su kernel che, analizzando 500 placche carotidee del trial CREST-2 tramite ecografia B-mode, identifica in modo accurato e interpretabile marcatori radiomici associati al rischio clinico di ictus.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Il paper presenta MOO, un dataset sintetico su larga scala di 1.000 bovini catturati da 128 angolazioni diverse, progettato per analizzare l'impatto delle variazioni di punto di vista sul riconoscimento animale e dimostrare come i priore geometrici sintetici possano migliorare le prestazioni nei compiti di re-identificazione tra vista aerea e terrestre.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Il paper introduce SPRINT, il primo framework di apprendimento incrementale a pochi esempi (FSCIL) progettato specificamente per dati tabulari, che sfrutta l'abbondanza di dati non etichettati e i bassi costi di archiviazione per raggiungere prestazioni all'avanguardia in diversi domini reali senza dimenticare le conoscenze precedenti.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Il paper presenta un framework scalabile per valutare il realismo delle aumentazioni sintetiche di condizioni ambientali (come nebbia, pioggia e notte) nelle immagini, dimostrando che i metodi di intelligenza artificiale generativa superano significativamente gli approcci basati su regole, raggiungendo o superando le prestazioni delle immagini reali per la maggior parte delle condizioni.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Il paper presenta Pointer-CAD, un nuovo framework basato su LLM che unifica la rappresentazione B-Rep e le sequenze di comandi tramite una selezione di entità geometriche basata su puntatori, risolvendo così le limitazioni nella generazione di modelli CAD complessi e riducendo gli errori topologici derivanti dalla discretizzazione.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Il paper presenta ArtHOI, il primo framework zero-shot che sintetizza interazioni umane con oggetti articolati fisicamente plausibili formulando il problema come una ricostruzione 4D da video monoculari generati da modelli di diffusione, superando i limiti delle approcci precedenti basati su oggetti rigidi.

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Questo studio confronta modelli generativi come DDPM, LDM e Flow Matching per la sintesi di risonanza magnetica cardiaca, dimostrando che i modelli basati su diffusione offrono il miglior compromesso tra fedeltà dell'immagine, utilità clinica e privacy, specialmente in scenari con dati limitati.

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

← Precedente Successivo →