cs.CV Arbeiten | Gist.Science

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

Die Autoren präsentieren einen neuen State-of-the-Art-Ansatz für Quantum Machine Learning, der es ermöglicht, hochauflösende und diverse Bilder auf den vollständigen MNIST- und Fashion-MNIST-Datensätzen ohne herkömmliche Vereinfachungstricks zu generieren, indem sie durch die Wahl spezifischer Variational-Circuit-Architekturen induktive Biases nutzen und so die Grenzen aktueller Quantengeneratoren überwinden.

Jonas Jäger, Florian J. Kiwit, Carlos A. Riofrío2026-03-03⚛️ quant-ph

Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

Die vorgestellte Arbeit führt den AP-PCO-Framework ein, der durch eine gemeinsame Optimierung von Position und Farbe sowie eine crossmodale Farbadaptierung effektiv und unauffällig adversarialle Angriffe auf multimodale visuell-infrarote Systeme für dichte Vorhersageaufgaben ermöglicht.

He Li, Wenyue He, Weihang Kong + 1 more2026-03-03💻 cs

Ozone Cues Mitigate Reflected Downwelling Radiance in LWIR Absorption-Based Ranging

Die vorgestellte Forschung verbessert die passive langwellige Infrarot-Entfernungsmessung durch die Nutzung von Ozon-Absorptionsmerkmalen, um den störenden Einfluss reflektierter einfallender Strahlung zu kompensieren und die Messgenauigkeit signifikant zu erhöhen.

Unay Dorken Gallastegi, Wentao Shangguan, Vaibhav Choudhary + 4 more2026-03-03⚡ eess

Seeking Necessary and Sufficient Information from Multimodal Medical Data

Die vorgestellte Arbeit adressiert die Herausforderung, in multimodalen medizinischen Daten sowohl notwendige als auch hinreichende Merkmale zu lernen, indem sie die Wahrscheinlichkeit von Notwendigkeit und Hinlänglichkeit (PNS) durch eine Zerlegung in modality-invariante und modality-spezifische Komponenten erweitert, was zu robusteren und leistungsfähigeren Modellen führt.

Boyu Chen, Weiye Bao, Junjie Liu + 5 more2026-03-03💻 cs

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Die Arbeit stellt Proof-of-Perception (PoP) vor, ein Framework für multimodales Reasoning, das durch konformale Unsicherheitsgarantien und eine budgetgesteuerte Tool-Nutzung verlässliche, nachvollziehbare Antworten liefert und dabei die Genauigkeit bei effizienterem Rechenaufwand im Vergleich zu bestehenden Methoden verbessert.

Arya Fayyazi, Haleh Akrami2026-03-03💻 cs

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

Die Autoren stellen eine neuartige, auf Diffusionsmodellen basierende Methode zur Bildverbesserung bei schwacher Beleuchtung vor, die mithilfe eines modularen Strukturierungsansatzes (SCEM) physikalische Priors für Helligkeit und Farbe nutzt, um Rauschen zu reduzieren und die Generalisierungsfähigkeit über verschiedene Datensätze hinweg zu maximieren.

Xuanshuo Fu, Lei Kang, Javier Vazquez-Corral2026-03-03💻 cs

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

Die Studie stellt einen wahrnehmungsbewussten Optimierungsrahmen für die chirurgische Planung kortikaler Sehprothesen vor, der die Elektrodenplatzierung unter Berücksichtigung von Gefäßsicherheit und grauer Substanz mittels eines differenzierbaren Vorwärtsmodells optimiert, um die Rekonstruktionsqualität bei simulierten Sehaufgaben im Vergleich zu herkömmlichen Strategien signifikant zu verbessern.

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

Diese Studie stellt ein Deep-Learning-Framework zur Erkennung von Fleischfrische vor, das eine U-Net-basierte Segmentierung mit einem OOD-bewussten Klassifizierungsansatz kombiniert, um auf RGB-Bildern vier Frischeklassen zu identifizieren und unsichere Vorhersagen auszuschließen, wobei EfficientNet-B0 mit 98,10 % Genauigkeit die beste Leistung erzielte und die praktische Einsetzbarkeit auf mobilen Geräten demonstriert wurde.

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

Diese Arbeit stellt einen neuartigen, unüberwachten Framework vor, der durch die Generierung von Pseudo-Labels mittels Clustering und deren anschließende Selbstkorrektur über den „Unbiased Teacher"-Ansatz eine automatisierte semantische Segmentierung großer Synchrotron-CT-Datensätze ohne manuelle Annotation ermöglicht und dabei die Genauigkeit im Vergleich zu reinen Pseudo-Labels signifikant verbessert.

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

Die Arbeit stellt DiffSOS vor, einen akustisch konditionierten Diffusionsmodell-basierten Ansatz zur schnellen und hochpräzisen Rekonstruktion von Schallgeschwindigkeitskarten in der Ultraschall-Computertomographie, der durch die Integration physikalischer Constraints, einen hybriden Verlust und die Schätzung von Unsicherheiten die Grenzen bestehender deterministischer und iterativer Methoden überwindet.

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

Das Paper stellt SSR vor, ein effizientes Framework für strukturierte Szenenbegründung, das durch eine leichte 2D-3D-Alignment-Mechanik und eine neuartige Szenengraph-Generierung Multimodal-Modelle mit nur 7 Milliarden Parametern zu State-of-the-Art-Ergebnissen in der räumlichen Intelligenz führt, ohne auf umfangreiche Vortrainings angewiesen zu sein.

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

Die Arbeit stellt PointAlign vor, eine neue Regularisierungsmethode auf Feature-Ebene, die durch die explizite Ausrichtung von Zwischenrepräsentationen von Punktwolken mit visuellen Eingabetokens die geometrischen Informationen in 3D-Vision-Language-Modellen erhält und so die Leistung bei Klassifikations- und Beschreibungsaufgaben signifikant verbessert.

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

Die Arbeit stellt DiffTrans vor, ein differentielles Rendering-Framework, das durch die Kombination von FlexiCubes, einem Umgebungslicht-Radiance-Feld und einem rekursiven differentiellen Raytracer eine präzise, end-zu-end-Zerlegung und Rekonstruktion der Geometrie und Materialeigenschaften transparenter Objekte in komplexen Szenen ermöglicht.

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

Station2Radar: query conditioned gaussian splatting for precipitation field

Das Paper stellt Station2Radar vor, ein neuartiges Framework namens Query-Conditioned Gaussian Splatting (QCGS), das automatisch Wetterstationen und Satellitenbilder fusioniert, um durch selektives Rendern von Niederschlagsbereichen effiziente, hochpräzise und echtzeitfähige Niederschlagsfelder zu erzeugen, die konventionelle Produkte in der Genauigkeit deutlich übertreffen.

Doyi Kim, Minseok Seo, Changick Kim2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

Das Paper stellt InstructX2X vor, ein neuartiges, interpretierbares Modell zur lokalen Bearbeitung medizinischer Bilder, das durch regionenspezifische Änderungen unerwünschte Nebeneffekte vermeidet und mittels einer Guidance Map transparente Erklärungen für die Generierung kontrfaktischer Röntgenbilder liefert.

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

Das Paper stellt Fact-Flow vor, ein innovatives Framework, das mithilfe eines LLM-bootstrappeden Prozesses zur automatischen Erstellung von gelabelten medizinischen Befunden visuelle Faktenidentifikation von der Berichtserstellung trennt und so die faktische Genauigkeit von MLLM-basierten medizinischen Berichten signifikant verbessert.

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

Die Arbeit stellt TARA vor, eine Methode zur taxonomiebewussten Repräsentationsausrichtung, die Large Multimodal Models durch die Integration biologischer Grundlagenmodelle befähigt, konsistente hierarchische Vorhersagen für bekannte und neue Kategorien in komplexen biologischen Taxonomien zu treffen.

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

Die Arbeit stellt TAP-SLF vor, einen parameter-effizienten Rahmen, der durch task-spezifische Soft-Prompts und das selektive Fine-Tuning bestimmter Encoder-Schichten Vision Foundation Models erfolgreich für die Multi-Task-Analyse von Ultraschallbildern adaptiert.

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Diese Arbeit stellt ICLA vor, einen Mechanismus zur internen Selbstkorrektur in großen visuell-sprachlichen Modellen, der durch eine diagonale Cross-Layer-Aufmerksamkeit die Halluzinationen reduziert, indem er während der Generierung direkt auf versteckte Zustände zugreift, ohne externe Korrektursignale zu benötigen.

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

Die Arbeit stellt Mamba-CAD vor, ein selbstüberwachtes generatives Modell auf Basis der Mamba-Architektur, das zusammen mit einem neuen Datensatz an komplexen CAD-Modellen entwickelt wurde, um lange parametrische CAD-Sequenzen für industrielle Anwendungen effektiv zu generieren.

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

← Zurück Weiter →