cs.CV Arbeiten | Gist.Science

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

GuardAlign ist ein trainingsfreies Verteidigungsframework für multimodale Sprachmodelle, das durch den Einsatz von Optimal-Transport zur präzisen Erkennung unsicherer Bildbereiche und einer cross-modalen Aufmerksamkeitskalibrierung zur Stabilisierung von Sicherheitsignalen die Sicherheitsrate signifikant verbessert, ohne die Nützlichkeit der Modelle zu beeinträchtigen.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

Die Arbeit stellt AIR vor, ein trainingsfreies Framework für multimodale große Sprachmodelle, das durch prototypenbasierte Token-Reduktion und OT-gesteuerte Patch-Reinforcement Halluzinationen effektiv reduziert, indem es die Aufmerksamkeit des Modells gezielt auf saliente visuelle Informationen lenkt.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Die Arbeit stellt ein einheitliches Framework vor, das mittels eines generativen Diffusionsmodells und impliziter Schnittmuster in UV-Raum sowohl aus Einzelbildern als auch aus Videos hochdetaillierte, zeitlich konsistente 3D-Rekonstruktionen von bekleideten Menschen ermöglicht, die selbst bei lockerer Kleidung und realen Aufnahmen über den bestehenden Stand der Technik hinausgehen.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Die Arbeit stellt Quant Experts (QE) vor, eine tokenbewusste adaptive Fehlerrekonstruktionsmethode mit Mixture-of-Experts, die durch die Unterscheidung zwischen tokenunabhängigen und tokenabhängigen Kanälen die Nachtrainings-Quantisierung von Large Vision-Language-Modellen verbessert und dabei die Genauigkeit von Vollpräzisionsmodellen beibehält.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Diese Arbeit stellt ein neurosymbolisches Verifikationsframework vor, das mithilfe eines SMT-Lösers und einer klinischen Wissensdatenbank die logische Konsistenz von bildbasierten Sprachmodellen bei der Erstellung radiologischer Berichte automatisch prüft und so hallucinierte Diagnosen eliminiert, um die Zuverlässigkeit klinischer Schlussfolgerungen zu garantieren.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

Das Paper stellt AgenticOCR vor, ein dynamisches, abfragegesteuertes OCR-System, das durch die selektive und bedarfsgerechte Extraktion relevanter Dokumentenbereiche die Effizienz und Genauigkeit multimodaler Retrieval-Augmented-Generation (RAG)-Systeme bei der Verarbeitung komplexer visueller Dokumente wie Finanzberichten erheblich verbessert.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Die Arbeit stellt eine kompakte 3D-Gaussian-Splatting-Methode vor, die durch eine rekonstruktionsbewusste, adaptive Pruning-Strategie und neuartige Difference-of-Gaussian-Primitiven die Anzahl der Gauss-Funktionen um bis zu 90 % reduziert, ohne dabei die visuelle Wiedergabequalität zu beeinträchtigen.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Die Arbeit stellt TASOT vor, eine unüberwachte Methode zur chirurgischen Phasen- und Schritterkennung, die multimodalen optimalen Transport unter Einbeziehung von visuellen und textuellen Informationen nutzt und dabei auf umfangreiche Vorab-Trainings verzichtet, während sie gleichzeitig signifikante Verbesserungen gegenüber bestehenden Zero-Shot-Methoden auf mehreren Benchmark-Datensätzen erzielt.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

Das Paper stellt HumanOrbit vor, ein auf Video-Diffusionsmodellen basierendes Verfahren, das aus einem einzelnen Bild konsistente 360°-Orbit-Videos generiert und daraus hochwertige, texturierte 3D-Mesh-Modelle von Personen rekonstruiert.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

RAViT ist ein neuartiges, resolutionsadaptives Vision-Transformer-Framework mit einem Mehrfachzweig-Netzwerk und einem Early-Exit-Mechanismus, das die Rechenkosten im Vergleich zu klassischen Vision-Transformern um etwa 30 % senkt, ohne dabei die Genauigkeit zu beeinträchtigen.

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Diese Arbeit stellt eine manigfaltigkeitserhaltende Superpixel-Hierarchie für hochdimensionale Bilder vor, die während des Aufbaus die räumliche Anordnung der Pixel berücksichtigt, um eine konsistente Exploration sowohl im Bild- als auch im Attributraum zu ermöglichen.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Die Arbeit stellt einen „omnivorischen" visuellen Encoder vor, der durch ein duales Lernziel, bestehend aus einer modality-agnostischen Ausrichtung und einer Destillation von DINOv2, eine konsistente und modality-unabhängige Merkmalsdarstellung für verschiedene Eingabemodalitäten wie RGB und Tiefenkarten ermöglicht.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Die vorgestellte Arbeit stellt ein automatisiertes, multimodales Auditierungsframework vor, das durch die systematische Entdeckung und Erklärung versteckter Fehler in medizinischen Bildklassifizierern die Sicherheit und Zuverlässigkeit dieser Systeme verbessert.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Die Arbeit stellt UMPIRE vor, ein training-freies Framework zur Unsicherheitsquantifizierung für multimodale Large Language Models, das durch die Berechnung des inkohärenzadjustierten semantischen Volumens auf Basis interner Modellmerkmale zuverlässige Fehlererkennung und Kalibrierung über verschiedene Modalitäten hinweg ermöglicht.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Das Paper stellt SenCache vor, einen trainingsfreien Ansatz zur Beschleunigung der Diffusionsmodell-Inferenz, der durch eine prinzipiengeleitete, sensibilitätsbasierte Caching-Strategie die Wiederverwendung von Berechnungen dynamisch anpasst und dabei eine höhere visuelle Qualität als bestehende Methoden bei ähnlichem Rechenaufwand erzielt.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

Die Arbeit stellt MuViT vor, einen Transformer, der durch die Einbettung multipler Auflösungen in ein gemeinsames Weltkoordinatensystem und die Erweiterung rotatorischer Positionseingebettungen die Analyse gigapixeliger Mikroskopiebilder verbessert, indem er gleichzeitig feine Details und den übergeordneten Gewebekontext integriert.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Die Autoren stellen eine neue Methode vor, die durch die Erstellung des SpatialReward-Datensatzes und des darauf aufbauenden Reward-Modells SpatialScore die räumliche Verständnisfähigkeit von Text-zu-Bild-Generierungsmodellen mittels Online-Reinforcement-Learning signifikant verbessert.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

Die Arbeit stellt GTASR vor, einen effizienten Ein-Schritt-Consistency-Model-Ansatz für die Real-World-Bild-Super-Resolution, der durch Trajektorienausrichtung und duale strukturelle Korrektur die Probleme von Konsistenzdrift und geometrischer Entkopplung löst und dabei hohe Qualität bei minimaler Latenz bietet.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

Die Arbeit stellt Latent Manifold Compaction (LMC) vor, ein unüberwachtes Framework zur Normalisierung von Histopathologie-Bildern, das durch die Verdichtung stain-induzierter latenter Mannigfaltigkeiten batch-invariante Embeddings lernt und so die Generalisierungsfähigkeit von Modellen über verschiedene klinische Standorte hinweg signifikant verbessert.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

Das vorgestellte Hierarchical Action Learning (HAL)-Modell überwindet die Herausforderungen der schwach überwachten Aktionssegmentierung durch einen hierarchischen kausalen Prozess, der unterschiedliche Zeitskalen zwischen visuellen Merkmalen und latenten Aktionsvariablen nutzt, um eine streng identifizierbare und überlegene Leistung zu erzielen.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

← Zurück Weiter →