cs.CV articoli | Gist.Science

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Il paper presenta K-MaT, un framework di apprendimento dei prompt che utilizza il trasporto ottimo di Fused Gromov-Wasserstein per ancorare le conoscenze cliniche e trasferire le strutture decisionali dai modelli VLM biomedici ad alta risoluzione a quelli a bassa risoluzione senza necessità di immagini di addestramento, ottenendo risultati all'avanguardia in compiti di imaging medico cross-modale.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Il paper introduce il Dynamic Chunking Diffusion Transformer (DC-DiT), un modello che migliora l'efficienza computazionale e la qualità della generazione delle immagini adattando dinamicamente il numero di token in base alla complessità visiva e allo stadio di denoising, ottenendo risultati superiori rispetto ai DiT tradizionali con un costo di addestramento ridotto.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Il paper introduce LATO, un nuovo metodo che utilizza un flusso di matching su latenti strutturati per preservare la topologia e generare in modo efficiente mesh 3D esplicite con geometrie complesse, evitando le tecniche tradizionali di estrazione isosuperficiale.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Questo studio presenta un metodo basato sulla visione artificiale per stimare la biomassa degli invertebrati utilizzando immagini e dati di velocità di sedimentazione, permettendo una valutazione rapida e non distruttiva della massa secca con un errore mediano del 10-20% per singolo esemplare.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Questo lavoro introduce OralGPT-Plus, un modello vision-language agentic che utilizza l'apprendimento per rinforzo e un nuovo dataset per migliorare l'analisi diagnostica iterativa e simmetrica delle radiografie dentali panoramiche.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Il paper presenta Rewis3d, un framework che migliora la segmentazione semantica debole supervisionata sfruttando la ricostruzione 3D feed-forward come segnale ausiliario per propagare annotazioni sparse su intere scene, ottenendo prestazioni allo stato dell'arte senza costi aggiuntivi di etichettatura o inferenza.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

Il paper propone MoEMambaMIL, un framework innovativo per l'analisi delle immagini intere di vetrini (WSI) che combina modelli a stato spaziale selettivo (SSM) con un meccanismo di esperti misti (MoE) per catturare efficacemente le dipendenze strutturate gerarchiche e migliorare le prestazioni diagnostiche su larga scala.

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

Il documento presenta CHMv2, una mappa globale ad alta risoluzione della altezza della chioma forestale derivata da immagini ottiche satellitari e addestrata su modelli DINOv3, che offre una precisione significativamente superiore rispetto ai prodotti esistenti nella quantificazione del carbonio forestale e nel monitoraggio della struttura dell'habitat.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Questo lavoro propone un framework di addestramento "prompt-group-aware" che, organizzando prompt semanticamente equivalenti in gruppi e applicando regolarizzazione e vincoli di coerenza, migliora la robustezza e la generalizzazione della segmentazione guidata da testo dei nuclei cellulari senza modificare l'architettura o l'inferenza dei modelli fondazione.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

Il paper presenta REACT++, un modello all'avanguardia per la generazione di grafi di scena in tempo reale che bilancia velocità di inferenza, accuratezza nella predizione delle relazioni e prestazioni nel rilevamento degli oggetti, superando la versione precedente con un aumento del 20% di velocità e del 10% di accuratezza.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Questo articolo propone un framework di risoluzione di puzzle guidato dall'uomo che combina un solver automatico con l'interazione umana per ricostruire in modo efficiente e accurato frammenti di beni culturali reali su larga scala, superando le limitazioni dei metodi puramente automatici di fronte a erosione e ambiguità.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

Il paper presenta DiffInf, un framework guidato dalla diffusione che utilizza punteggi di influenza per identificare e correggere tramite modelli generativi le inconsistenze nelle annotazioni dei tratti facciali, migliorando così l'addestramento dei classificatori senza ridurre la copertura del dataset.

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

Lo studio individua come il modello Vision Transformer BEiT risolva l'ambiguità figura-sfondo favorendo la completamento convesso, un processo guidato da unità funzionali identificabili come l'attenzione L0H9 che risolve il conflitto percettivo negli strati finali.

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

Il paper introduce PSIVG, un nuovo framework che integra un simulatore fisico nel processo di generazione video basata su diffusione per garantire che i movimenti degli oggetti rispettino le leggi della fisica, migliorando così la coerenza spaziotemporale e la realismo dei video generati.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

Questo articolo presenta un metodo di visione stereo non invasivo e consapevole della rifrazione, basato su YOLOv11-Pose, per stimare con precisione la lunghezza dei pesci d'acquario filtrando le rilevazioni inaffidabili e validando l'approccio su un nuovo dataset di pesci riso del Sulawesi.

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Il paper presenta CLoPA, una strategia di adattamento continuo che ottimizza una piccola frazione dei parametri del modello nnInteractive su dati annotati in tempo reale, elevando rapidamente le prestazioni della segmentazione interattiva a livelli esperti su diverse attività mediche senza richiedere modifiche al flusso di lavoro o nuovi parametri.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

Il paper introduce WanderDream, il primo dataset su larga scala che permette agli agenti di simulare mentalmente percorsi esplorativi per rispondere a domande di ragionamento situato senza dover esplorare fisicamente l'ambiente, superando così i vincoli di sicurezza e le limitazioni fisiche.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Il paper presenta CaTok, un tokenizzatore causale unidimensionale per immagini che utilizza un decoder MeanFlow e una regolarizzazione REPA-A per allineare le caratteristiche agli VFMs, ottenendo risultati all'avanguardia nella ricostruzione di ImageNet e supportando sia la generazione rapida in un singolo passo che il campionamento multi-step ad alta fedeltà.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Il paper presenta Pinterest Canvas, un sistema di generazione di immagini su larga scala che combina un modello di diffusione fondazionale addestrato su dati multimodali con varianti specializzate ottenute tramite fine-tuning rapido, dimostrando attraverso studi di caso e test A/B risultati superiori rispetto ai modelli di terze parti per compiti come il miglioramento dello sfondo e l'outpainting, con un significativo aumento del coinvolgimento degli utenti.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Questo studio analizza sistematicamente l'impatto della ponderazione della perdita e della parametrizzazione dell'output sui modelli di flow matching, esaminando come queste scelte interagiscano con la dimensionalità intrinseca dei dati, l'architettura del modello e la dimensione del dataset per fornire indicazioni pratiche sulle scelte di progettazione.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs

← Precedente Successivo →