Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Questo articolo propone un metodo innovativo per la segmentazione istanza di oggetti mimetizzati in ambito open-vocabulary, sfruttando le capacità dei modelli di diffusione testo-immagine per apprendere rappresentazioni visivo-testuali multiscala che superano le sfide poste dal camuffamento e permettono l'identificazione di nuove classi di oggetti.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

Il paper presenta FireANTs, un algoritmo di ottimizzazione Riemanniana adattiva multi-scala, privo di training e accelerato da GPU, che risolve il problema dell'adattamento diffeomorfo denso offrendo una velocità e un'efficienza di memoria superiori rispetto ai metodi tradizionali e deep learning, garantendo al contempo una robustezza trasversale a diverse modalità e specie senza necessità di addestramento specifico.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Il paper presenta Merlin, un modello fondazionale visione-linguaggio 3D addestrato su un vasto dataset clinico di scansioni TC addominali e dati sanitari, che supera i modelli esistenti nel comprendere volumi medici complessi e nel svolgere compiti diagnostici, prognostici e di generazione di report senza necessità di annotazioni manuali aggiuntive.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Scaling Laws For Diffusion Transformers

Questo studio conferma per la prima volta l'esistenza di leggi di scalabilità nei Diffusion Transformers (DiT), dimostrando che la perdita di pre-addestramento segue una relazione di potenza con il calcolo computazionale, permettendo così di prevedere con precisione le dimensioni ottimali del modello, i requisiti di dati e le prestazioni di generazione per budget computazionali anche molto elevati.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

Il paper introduce FlowCLAS, un framework ibrido che potenzia i flussi normalizzanti per la segmentazione delle anomalie nei robot combinando l'obiettivo di massima verosimiglianza con una perdita di contrasto tramite esposizione agli outlier, ottenendo così prestazioni all'avanguardia e colmando il divario con i metodi discriminatori.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Il paper presenta VideoMindPalace, un nuovo framework che organizza i momenti chiave dei video in un grafo semantico strutturato ispirato al "palazzo della mente" per migliorare l'analisi di video lunghi e il ragionamento spaziotemporale nei modelli linguistici visivi, accompagnato dal benchmark VMB per valutarne le capacità.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Il paper introduce il dataset UNB StepUP-P150, una raccolta di oltre 200.000 misurazioni ad alta risoluzione delle pressioni plantari di 150 individui in diverse condizioni di calzatura e velocità, destinata a stabilire un nuovo benchmark per l'analisi e il riconoscimento del passo tramite tecnologie di pressione sotto il piede.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

Il paper presenta un nuovo modello generativo basato su distribuzioni geometriche che, attraverso l'encoding delle distribuzioni in mappe di caratteristiche 2D e l'uso di modelli SMPL in un framework di training a due stadi, supera gli stati dell'arte nella generazione di geometrie umane realistiche con dettagli di abbigliamento e interazioni corpo-vestiti, ottenendo un miglioramento del 57% nella qualità geometrica.

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs