cs.CV Arbeiten | Gist.Science

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Die Arbeit stellt TASOT vor, eine unüberwachte Methode zur chirurgischen Phasen- und Schritterkennung, die multimodalen optimalen Transport unter Einbeziehung von visuellen und textuellen Informationen nutzt und dabei auf umfangreiche Vorab-Trainings verzichtet, während sie gleichzeitig signifikante Verbesserungen gegenüber bestehenden Zero-Shot-Methoden auf mehreren Benchmark-Datensätzen erzielt.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

Das Paper stellt HumanOrbit vor, ein auf Video-Diffusionsmodellen basierendes Verfahren, das aus einem einzelnen Bild konsistente 360°-Orbit-Videos generiert und daraus hochwertige, texturierte 3D-Mesh-Modelle von Personen rekonstruiert.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

RAViT ist ein neuartiges, resolutionsadaptives Vision-Transformer-Framework mit einem Mehrfachzweig-Netzwerk und einem Early-Exit-Mechanismus, das die Rechenkosten im Vergleich zu klassischen Vision-Transformern um etwa 30 % senkt, ohne dabei die Genauigkeit zu beeinträchtigen.

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Diese Arbeit stellt eine manigfaltigkeitserhaltende Superpixel-Hierarchie für hochdimensionale Bilder vor, die während des Aufbaus die räumliche Anordnung der Pixel berücksichtigt, um eine konsistente Exploration sowohl im Bild- als auch im Attributraum zu ermöglichen.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Die Arbeit stellt einen „omnivorischen" visuellen Encoder vor, der durch ein duales Lernziel, bestehend aus einer modality-agnostischen Ausrichtung und einer Destillation von DINOv2, eine konsistente und modality-unabhängige Merkmalsdarstellung für verschiedene Eingabemodalitäten wie RGB und Tiefenkarten ermöglicht.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Die vorgestellte Arbeit stellt ein automatisiertes, multimodales Auditierungsframework vor, das durch die systematische Entdeckung und Erklärung versteckter Fehler in medizinischen Bildklassifizierern die Sicherheit und Zuverlässigkeit dieser Systeme verbessert.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Die Arbeit stellt UMPIRE vor, ein training-freies Framework zur Unsicherheitsquantifizierung für multimodale Large Language Models, das durch die Berechnung des inkohärenzadjustierten semantischen Volumens auf Basis interner Modellmerkmale zuverlässige Fehlererkennung und Kalibrierung über verschiedene Modalitäten hinweg ermöglicht.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Das Paper stellt SenCache vor, einen trainingsfreien Ansatz zur Beschleunigung der Diffusionsmodell-Inferenz, der durch eine prinzipiengeleitete, sensibilitätsbasierte Caching-Strategie die Wiederverwendung von Berechnungen dynamisch anpasst und dabei eine höhere visuelle Qualität als bestehende Methoden bei ähnlichem Rechenaufwand erzielt.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

Die Arbeit stellt MuViT vor, einen Transformer, der durch die Einbettung multipler Auflösungen in ein gemeinsames Weltkoordinatensystem und die Erweiterung rotatorischer Positionseingebettungen die Analyse gigapixeliger Mikroskopiebilder verbessert, indem er gleichzeitig feine Details und den übergeordneten Gewebekontext integriert.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Die Autoren stellen eine neue Methode vor, die durch die Erstellung des SpatialReward-Datensatzes und des darauf aufbauenden Reward-Modells SpatialScore die räumliche Verständnisfähigkeit von Text-zu-Bild-Generierungsmodellen mittels Online-Reinforcement-Learning signifikant verbessert.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

Die Arbeit stellt GTASR vor, einen effizienten Ein-Schritt-Consistency-Model-Ansatz für die Real-World-Bild-Super-Resolution, der durch Trajektorienausrichtung und duale strukturelle Korrektur die Probleme von Konsistenzdrift und geometrischer Entkopplung löst und dabei hohe Qualität bei minimaler Latenz bietet.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

Die Arbeit stellt Latent Manifold Compaction (LMC) vor, ein unüberwachtes Framework zur Normalisierung von Histopathologie-Bildern, das durch die Verdichtung stain-induzierter latenter Mannigfaltigkeiten batch-invariante Embeddings lernt und so die Generalisierungsfähigkeit von Modellen über verschiedene klinische Standorte hinweg signifikant verbessert.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

Das vorgestellte Hierarchical Action Learning (HAL)-Modell überwindet die Herausforderungen der schwach überwachten Aktionssegmentierung durch einen hierarchischen kausalen Prozess, der unterschiedliche Zeitskalen zwischen visuellen Merkmalen und latenten Aktionsvariablen nutzt, um eine streng identifizierbare und überlegene Leistung zu erzielen.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Die Arbeit stellt einen Decoupled Diffusion Transformer vor, der durch die Kombination von überwachtem Flow Matching für die globale Kohärenz und einem mode-suchenden Verteilungs-Matching für die lokale Realismusübertragung effizient hochqualitative Minuten-videos generiert und dabei die Lücke zwischen Bildqualität und Videolänge schließt.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

Das Paper stellt BSDM vor, ein neuartiges, nicht überwachtes Diffusionsmodell zur Hyperspektral-Anomalieerkennung, das durch das Lernen latenter Hintergrundverteilungen und einen statistischen Offset-Modul komplexe Hintergründe unterdrückt und eine hohe Generalisierungsfähigkeit auf verschiedene Datensätze ohne manuelle Label ermöglicht.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

Die Arbeit stellt StableMaterials vor, eine neuartige Methode zur Erzeugung fotorealistischer PBR-Materialien mittels halbüberwachtem Lernen und Latent Diffusion Models, die durch adversäres Training, einen Diffusions-Refiner und eine Latent-Consistency-Modell-Destillation eine hohe Vielfalt, Qualität und schnelle Generierung ohne starke Abhängigkeit von annotierten Daten ermöglicht.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

Die Arbeit stellt SGIFormer vor, einen neuartigen Transformer-basierten Ansatz für die 3D-Instanzsegmentierung, der durch eine semantisch geführte Abfrageinitialisierung und einen geometrie-gestärkten verschachtelten Decoder sowohl die Genauigkeit als auch die Effizienz bei der Verarbeitung großer 3D-Szenen verbessert und dabei neue State-of-the-Art-Ergebnisse auf mehreren Benchmark-Datensätzen erzielt.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

Die vorgestellte Arbeit führt eine parametereffiziente Methode zur Open-Set-Erkennung von Deepfakes vor, die auf einem Vision-Transformer mit leichtgewichtigen Modulen und einer Mischung von Fälschungsstilen basiert, um die Generalisierungsfähigkeit auf unbekannte Domänen bei minimalem Rechenaufwand zu verbessern.

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

Die Arbeit stellt einen clusterbasierten generativen Rahmen vor, der auf einem Gaußschen Mischmodell und einem VAE aufbaut, um aus einem einzigen Beispiel robuste, abstrahierte Prototypen für visuelle Konzepte zu erzeugen und damit sowohl Klassifikations- als auch Generierungsaufgaben im Sinne des Omniglot-Challenges mit geringer Komplexität und ohne Vorwissen zu lösen.

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

Die Arbeit stellt SplatSDF vor, eine neuartige SDF-NeRF-Architektur, die durch eine direkte architektonische Fusion mit 3D-Gaussian-Splats die Konvergenzgeschwindigkeit im Vergleich zu bestehenden Methoden verdreifacht und gleichzeitig eine präzise geometrische Repräsentation für den Einsatz in praktischen Robotersystemen ermöglicht.

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

← Zurück Weiter →