cs.CV articoli | Gist.Science

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Il paper propone un nuovo framework per un "encoder visivo onnivoro" che, attraverso un obiettivo di distillazione e allineamento modale, risolve il disallineamento delle rappresentazioni di modelli come DINOv2, permettendo loro di generare embedding coerenti e potenti indipendentemente dalla modalità di input (RGB, profondità, segmentazione, ecc.).

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Questo lavoro presenta il primo quadro automatizzato di auditing multimodale per la scoperta sistematica e la spiegazione dei fallimenti nei classificatori di immagini mediche, dimostrando attraverso il dataset MIMIC-CXR-JPG che l'integrazione di informazioni multimodali migliora significativamente l'identificazione e la comprensione degli errori rispetto ai metodi unimodali tradizionali.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Il paper presenta UMPIRE, un framework di quantificazione dell'incertezza senza addestramento per i modelli linguistici multimodali che calcola il volume semantico incoerente delle risposte utilizzando esclusivamente le caratteristiche interne del modello, superando così i limiti delle metriche esistenti e dimostrando prestazioni superiori nella rilevazione degli errori e nella calibrazione dell'incertezza su diversi compiti e modalità.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Il paper presenta SenCache, un metodo di caching sensibile alla sensibilità che accelera l'inferenza dei modelli di diffusione per la generazione video analizzando la sensibilità dell'output del modello alle perturbazioni, consentendo una selezione dinamica e adattiva dei passi di caching che supera i metodi basati su euristiche mantenendo una qualità visiva superiore.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

Il paper introduce MuViT, un'architettura Transformer multi-risoluzione che fusing osservazioni a diverse scale spaziali in un sistema di coordinate condiviso per migliorare l'analisi di immagini microscopiche gigapixel.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Questo lavoro presenta un nuovo metodo che migliora la comprensione spaziale nei modelli di generazione di immagini attraverso la costruzione di un dataset di preferenze e di un modello di ricompensa specializzato, il quale abilita l'apprendimento per rinforzo online e supera le prestazioni dei modelli proprietari esistenti nella valutazione delle relazioni spaziali.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

Il paper presenta GTASR, un metodo di super-risoluzione delle immagini in tempo reale basato su Consistency Models che, attraverso strategie di allineamento della traiettoria e rettifica strutturale duale, risolve i problemi di deriva di coerenza e disaccoppiamento geometrico permettendo una generazione di alta qualità in un singolo passo con costi computazionali ridotti.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

Questo lavoro introduce la Compattazione del Manifold Latente (LMC), un framework di apprendimento non supervisionato che armonizza le immagini di istopatologia comprimendo i manifold latenti indotti dalle macchie, permettendo così una generalizzazione superiore rispetto ai metodi esistenti nelle attività di classificazione e rilevamento tra diversi batch.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

Il paper propone il modello HAL (Hierarchical Action Learning), che sfrutta la diversa velocità di evoluzione tra le variabili visive di basso livello e quelle latenti di alto livello per migliorare la segmentazione delle azioni in regime di supervisione debole, ottenendo risultati superiori rispetto agli stati dell'arte.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Il paper propone un nuovo paradigma di addestramento basato su un Decoupled Diffusion Transformer che combina "Mode Seeking" e "Mean Seeking" per generare rapidamente video lunghi e coerenti, superando la scarsità di dati a lungo termine preservando al contempo l'alta fedeltà locale.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

Questo articolo presenta BSDM, un nuovo modello di diffusione senza supervisione che sopprime il complesso fondo nelle immagini iperspettrali per migliorare il rilevamento di anomalie e garantire una forte generalizzazione su diversi dataset senza richiedere dati etichettati.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

Il paper introduce StableMaterials, un approccio innovativo che combina apprendimento semi-supervisionato e modelli di diffusione latente per generare materiali PBR fotorealistici, diversificati e ad alta risoluzione, riducendo al contempo la dipendenza da dati annotati e garantendo una generazione rapida e priva di artefatti.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

Il paper presenta SGIFormer, un nuovo metodo per la segmentazione di istanze 3D che combina un'inizializzazione di query guidata dalla semantica e un decoder transformer intercalato potenziato dalla geometria per ottenere prestazioni all'avanguardia su grandi scene 3D con un ottimo equilibrio tra accuratezza ed efficienza.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

Questo paper presenta un metodo di rilevamento dei Deepfake open-set basato su ViT che, sfruttando una miscela di stili di falsificazione e un adattamento efficiente dei parametri, supera i limiti di generalizzazione e di consumo computazionale delle tecniche esistenti.

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

Il paper introduce un framework di segmentazione basato su cluster che utilizza i parametri di un modello a mistura gaussiana per creare "Prototipi Gaussiani Astratti" (AGP), permettendo l'apprendimento e la generazione di concetti visivi in uno-shot in modo autonomo e ispirato alla cognizione umana, senza dipendere da pre-addestramenti complessi.

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

Il paper presenta SplatSDF, un'architettura innovativa che accelera significativamente l'addestramento e la convergenza dei modelli SDF-NeRF integrando a livello strutturale le Gaussiane 3D come input, superando così i limiti di velocità delle soluzioni precedenti e abilitando il loro utilizzo pratico nei sistemi robotici.

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

Il paper presenta DGGS, un nuovo framework che risolve il problema della generalizzazione del 3D Gaussian Splatting in presenza di elementi di disturbo, garantendo inferenza feedforward stabile e la generazione di maschere di occultamento accurate sia durante l'addestramento che nell'inferenza su scene inedite.

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Questo lavoro propone un nuovo framework che supera i limiti dell'object detection a vocabolario aperto identificando e apprendendo incrementalmente oggetti sconosciuti in scenari open world, grazie alle tecniche OWEL e MSCAL che migliorano le prestazioni nei benchmark di guida autonoma mantenendo la capacità di rilevamento open vocabulary.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

Questo paper propone un metodo innovativo per animare schizzi a mano libera tramite prompt testuali, utilizzando un modello di diffusione text-to-video guidato da vincoli di coerenza temporale e rigidità per garantire movimenti fluidi e la preservazione della topologia dello schizzo.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

Il paper presenta PPT, un semplice e scalabile framework di preaddestramento che utilizza traiettorie pseudo-etichettate generate automaticamente da rilevatori 3D per migliorare la generalizzazione e le prestazioni nella previsione del movimento, specialmente in scenari con dati limitati o cross-dominio.

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

← Precedente Successivo →