Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Die Arbeit stellt TASOT vor, eine unüberwachte Methode zur chirurgischen Phasen- und Schritterkennung, die multimodalen optimalen Transport unter Einbeziehung von visuellen und textuellen Informationen nutzt und dabei auf umfangreiche Vorab-Trainings verzichtet, während sie gleichzeitig signifikante Verbesserungen gegenüber bestehenden Zero-Shot-Methoden auf mehreren Benchmark-Datensätzen erzielt.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Die Arbeit stellt UMPIRE vor, ein training-freies Framework zur Unsicherheitsquantifizierung für multimodale Large Language Models, das durch die Berechnung des inkohärenzadjustierten semantischen Volumens auf Basis interner Modellmerkmale zuverlässige Fehlererkennung und Kalibrierung über verschiedene Modalitäten hinweg ermöglicht.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

Die Arbeit stellt StableMaterials vor, eine neuartige Methode zur Erzeugung fotorealistischer PBR-Materialien mittels halbüberwachtem Lernen und Latent Diffusion Models, die durch adversäres Training, einen Diffusions-Refiner und eine Latent-Consistency-Modell-Destillation eine hohe Vielfalt, Qualität und schnelle Generierung ohne starke Abhängigkeit von annotierten Daten ermöglicht.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

Die Arbeit stellt SGIFormer vor, einen neuartigen Transformer-basierten Ansatz für die 3D-Instanzsegmentierung, der durch eine semantisch geführte Abfrageinitialisierung und einen geometrie-gestärkten verschachtelten Decoder sowohl die Genauigkeit als auch die Effizienz bei der Verarbeitung großer 3D-Szenen verbessert und dabei neue State-of-the-Art-Ergebnisse auf mehreren Benchmark-Datensätzen erzielt.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs