cs.CV Arbeiten | Gist.Science

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

Die Arbeit stellt ShapeShift vor, eine Methode, die mithilfe von semantischen Phasenfeld-Leitlinien aus Diffusionsmodellen starre Objekte so anordnet, dass sie natürliche Sprachkonzepte visuell darstellen, ohne dabei die physikalische Gültigkeit durch Überlappungen zu verletzen.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Die Studie stellt mit dem Qualcomm Interactive Video Dataset (IVD) einen neuen Benchmark vor, um die Fähigkeit von Vision-Language-Modellen zu bewerten, in Echtzeit auf Kamera- und Audioeingaben zu reagieren, und zeigt, dass diese zwar derzeit weit hinter menschlichen Leistungen zurückbleiben, durch Feinabstimmung jedoch erheblich verbessert werden können.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Die Arbeit stellt eine neuartige, vom menschlichen Gehirn inspirierte Analogie-Methode namens BiAG vor, die ohne Feinabstimmung der Parameter neue Klassen-Gewichte aus bestehenden Gewichten ableitet und damit das Few-Shot Class-Incremental Learning auf mehreren Datensätzen signifikant verbessert.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Das Paper stellt JavisDiT vor, einen neuartigen Joint Audio-Video Diffusion Transformer, der mithilfe eines hierarchischen räumlich-zeitlichen Synchronisationsmechanismus (HiST-Sypo) hochwertige, synchronisierte Audio-Video-Inhalte aus Textprompts generiert und durch die Einführung des neuen Benchmarks JavisBench sowie einer robusten Metrik einen neuen Standard für diese Aufgabe setzt.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

Die Arbeit stellt STEP vor, einen leichten, selbstaufmerksamen zeitlichen Probing-Ansatz, der durch die Modellierung der Frame-Reihenfolge die Erkennung nahezu symmetrischer Aktionen in der Mensch-Roboter-Interaktion verbessert und dabei sowohl herkömmliches Probing als auch aufwendigere Parameter-Effiziente Feinabstimmungsmethoden übertrifft.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

Die Arbeit stellt DL4ND, eine neue Methode zur Rauscherkennung, vor, die durch die Nutzung von Domänenlabels die Grenzen bestehender Ansätze für das Lernen mit verrauschten Labels und die Domänengeneralisierung überwindet und so eine robuste Generalisierung unter kombinierten Bedingungen ermöglicht.

Siqi Wang, Aoming Liu, Bryan A. Plummer2026-02-24🤖 cs.LG

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

Das Paper stellt nnLandmark vor, ein selbstkonfigurierendes Framework für die 3D-Landmarkenerkennung in der Medizin, das durch die Wiederverwendung von nnU-Net-Komponenten und standardisierte Benchmarking-Tools einen neuen State-of-the-Art erreicht und die Entwicklung sowie den fairen Vergleich neuer Methoden ohne manuelle Hyperparameteranpassung ermöglicht.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Die Arbeit stellt eine konfidenzgesteuerte Aufmerksamkeitsmethode vor, die durch adaptive Gewichtsreduktion und eine Klassifizierungsverlustfunktion Rauschen in der semi-dichten Merkmalszuordnung minimiert und damit den aktuellen Stand der Technik auf drei Benchmarks übertrifft.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

Die Arbeit stellt GRILL vor, eine Technik, die durch die lokale Wiederherstellung von Gradientensignalen in schlecht konditionierten Schichten die Wirksamkeit von Adversarial Attacks auf Autoencoder und ähnliche Encoder-Decoder-Architekturen signifikant steigert, um deren Robustheit rigoroser zu bewerten.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Diese Arbeit stellt eine Methode zur Wissensübertragung auf leichte Modelle vor, die durch die mathematische Definition von „Perzeptionskohärenz" und einen darauf basierenden Verlustfunktion auf Rangordnungen der Dissimilarität im Merkmalsraum eine probabilistische Perspektive ermöglicht und damit bestehende Basismethoden in der Leistung übertrifft oder mit ihnen gleichzieht.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

Die Studie stellt U2-BENCH vor, den ersten umfassenden Benchmark zur Evaluierung von Large Vision-Language-Modellen in der Ultraschalldiagnostik, der 23 Modelle über 8 klinische Aufgaben hinweg testet und dabei zwar gute Klassifikationsfähigkeiten, aber weiterhin erhebliche Herausforderungen bei der räumlichen Reasoning und der Generierung klinischer Berichte aufzeigt.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Die Arbeit stellt TEMU-VTOFF vor, ein textgestütztes Multi-Kategorie-Framework, das mittels eines dualen DiT-Backbones und eines Ausrichtungsmoduls aus Fotos bekleideter Personen hochwertige, standardisierte Produktbilder von Kleidungsstücken rekonstruiert und dabei den Verlust von Details sowie visuelle Mehrdeutigkeiten überwindet.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Die Autoren stellen einen neuartigen neuronalen B-Bild-Codec vor, der durch eine feingranulare Motion-Kompression mit interaktivem Dual-Branch-Autoencoder und eine selektive zeitliche Fusion mit Hyperprior-basierter Ausrichtung die Effizienz signifikant steigert und dabei sowohl den aktuellen State-of-the-Art-Codec DCVC-B als auch den H.266/VVC-Referenzstandard übertrifft.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Diese Arbeit stellt die neue Metrik „Perception Characteristics Distance" (PCD) vor, die die Unsicherheit von Wahrnehmungsalgorithmen berücksichtigt, und validiert sie mithilfe des neu erstellten SensorRainFall-Datensatzes unter verschiedenen Wetter- und Lichtbedingungen, um die Stabilität und Robustheit autonomer Fahrsysteme besser zu bewerten als herkömmliche Kennzahlen.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Die Studie zeigt, dass die Integration von Referenzbildern gesunder Kontrollpersonen in visuell-sprachliche Modelle die medizinische Diagnoseleistung durch vergleichende Analyse und gezieltes Fine-Tuning signifikant verbessert.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Diese Arbeit stellt ein neues Framework namens Doomer vor, das mithilfe von drei Smartphone-Kameras mit spektralen Filtern und einem leichten Ausrichtungsmodul präzisere hyperspektrale Bilder aus mehreren ungenau ausgerichteten RGB-Aufnahmen rekonstruiert und dabei die Genauigkeit gegenüber herkömmlichen Einzelbild-Methoden um bis zu 30 % steigert.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Die vorgestellte Arbeit stellt SCINet vor, ein neuartiges Framework für das partielle Multi-Label-Learning, das semantische Ko-occurrence-Muster durch die Integration eines bi-dominanten Prompters, einer Cross-Modality-Fusion und intrinsischer semantischer Augmentierung nutzt, um unvollständig annotierte Daten effektiver zu verarbeiten und den aktuellen Stand der Technik zu übertreffen.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second

MoVieS ist ein Motion-Aware-Modell, das dynamische 4D-Szenen aus monokularen Videos in einer Sekunde rekonstruiert und durch die Verwendung pixel-aligneder Gaußscher Primitiven sowie eine explizite Bewegungsüberwachung erstmals eine einheitliche Modellierung von Erscheinung, Geometrie und Bewegung innerhalb eines einzigen Lernrahmens ermöglicht.

Chenguo Lin, Yuchen Lin, Panwang Pan + 5 more2026-02-24💻 cs

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

Der Artikel stellt Winsor-CAM vor, eine effiziente und anpassbare Methode zur Visualisierung von CNN-Entscheidungen, die durch die Aggregation von Grad-CAM-Karten aller Faltungsschichten und eine percentilbasierte Winsorisierung robustere und präzise Erklärungen liefert, die in medizinischen und sicherheitskritischen Anwendungen die Leistung bestehender Methoden übertreffen.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI

DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment

Die Arbeit stellt DEFNet vor, ein auf Evidenzlernen basierendes tiefes Netzwerk für die blinde Bildqualitätsbewertung, das durch eine multitask-optimierte Architektur mit Szenen- und Verzerrungsklassifikation sowie eine neuartige, evidenzbasierte Unsicherheitsschätzung und Informationsfusion robuste und generalisierbare Ergebnisse erzielt.

Yiwei Lou, Yuanpeng He, Rongchao Zhang + 3 more2026-02-24⚡ eess

← Zurück Weiter →