cs.CV Arbeiten | Gist.Science

Geometry Distributions

Die Arbeit stellt eine neue geometrische Datenrepräsentation vor, die Geometrie als Verteilungen modelliert und mithilfe von Diffusionsmodellen feine Details erfasst, um die Einschränkungen herkömmlicher koordinatenbasierter Netzwerke bei dünnen Strukturen und nicht wasserdichten Geometrien zu überwinden.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

Die Arbeit stellt Speedy-Splat vor, eine Methode zur Beschleunigung der 3D-Gaussian-Splatting-Rendering-Pipeline durch die Optimierung der Gauss-Ortung und die Einführung eines neuen Pruning-Verfahrens, was zu einer drastischen Steigerung der Wiedergabegeschwindigkeit, einer Verkleinerung des Modells und einer kürzeren Trainingszeit führt.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

Die Arbeit stellt MEt3R vor, eine metrik zur Bewertung der Multi-View-Konsistenz generierter Bilder durch den Vergleich von gewarpten Bildinhalten und Feature-Maps mittels DUSt3R, um eine von der Probiermethode unabhängige Qualitätsmessung zu ermöglichen.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

Diese Arbeit stellt eine neue, polynomiale Lösung für das Perspektive-Vier-Punkte-Problem vor, die durch eine innovative Variablentrennung und eine Reduktion auf das absolute Orientierungsproblem eine um eine Größenordnung schnellere Berechnung bei vergleichbarer Genauigkeit ermöglicht.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Die Studie stellt ein innovatives selbstüberwachtes Lernframework vor, das räumliche und zeitliche Kontrastierung von Street-View-Bildern nutzt, um robuste Repräsentationen für dynamische und gebaute Umgebungen zu erlernen, die in Aufgaben wie der sozioökonomischen Schätzung und der visuellen Ortserkennung deutlich besser abschneiden als herkömmliche Methoden.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Die Studie stellt SAMRI-2 vor, ein interaktives, speicherbasiertes Deep-Learning-Modell, das durch eine Hybrid-Shuffle-Strategie und eine geringe Anzahl an Benutzerinteraktionen die präzise Segmentierung von Knorpel und Meniskus in 3D-Knie-MRTs übertrifft und so die Effizienz und Genauigkeit bei der Diagnose von Kniearthrose verbessert.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Die vorgestellte Arbeit stellt IVPT vor, ein neuartiges Framework für das visuelle Prompt Tuning, das durch die Einführung von konzeptbasierten Prototypen über mehrere Netzwerkschichten hinweg erstmals interpretierbare und leistungsfähige Anpassungen vortrainierter visueller Grundmodelle ermöglicht.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Die Arbeit stellt Hier-COS vor, ein neuartiges Framework zur hierarchiebewussten Klassifizierung, das durch die Komposition orthogonaler Unterräume theoretisch konsistente Repräsentationen liefert und zusammen mit dem neuen Bewertungsmetrik HOPS den aktuellen Stand der Technik auf mehreren Datensätzen übertrifft.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Die Arbeit stellt SpHOR vor, eine Methode zur offenen Erkennung, die durch orthogonale Label-Embeddings, sphärische Constraints und integrierte Regularisierungstechniken das Merkmalsrepräsentationslernen gezielt optimiert, um unbekannte Klassen in Deep-Learning-Modellen präziser zu identifizieren und dabei den aktuellen Stand der Technik zu übertreffen.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

Die Arbeit stellt PSGait vor, ein neuartiges Framework, das durch die Fusion von Silhouetten mit einer hochinformativen „Parsing Skeleton"-Darstellung die Genauigkeit und Generalisierbarkeit der Gangerkennung in realen Szenarien bei gleichzeitig reduzierter Rechenkomplexität signifikant verbessert.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

Das Paper stellt VideoMind vor, einen neuartigen Video-Sprach-Agenten, der durch einen rollenbasierten Workflow und einen effizienten Chain-of-LoRA-Mechanismus präzises, zeitlich verankertes Video-Reasoning über 15 Benchmarks hinweg ermöglicht.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

Die Arbeit stellt ShapeShift vor, eine Methode, die mithilfe von semantischen Phasenfeld-Leitlinien aus Diffusionsmodellen starre Objekte so anordnet, dass sie natürliche Sprachkonzepte visuell darstellen, ohne dabei die physikalische Gültigkeit durch Überlappungen zu verletzen.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Die Studie stellt mit dem Qualcomm Interactive Video Dataset (IVD) einen neuen Benchmark vor, um die Fähigkeit von Vision-Language-Modellen zu bewerten, in Echtzeit auf Kamera- und Audioeingaben zu reagieren, und zeigt, dass diese zwar derzeit weit hinter menschlichen Leistungen zurückbleiben, durch Feinabstimmung jedoch erheblich verbessert werden können.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Die Arbeit stellt eine neuartige, vom menschlichen Gehirn inspirierte Analogie-Methode namens BiAG vor, die ohne Feinabstimmung der Parameter neue Klassen-Gewichte aus bestehenden Gewichten ableitet und damit das Few-Shot Class-Incremental Learning auf mehreren Datensätzen signifikant verbessert.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Das Paper stellt JavisDiT vor, einen neuartigen Joint Audio-Video Diffusion Transformer, der mithilfe eines hierarchischen räumlich-zeitlichen Synchronisationsmechanismus (HiST-Sypo) hochwertige, synchronisierte Audio-Video-Inhalte aus Textprompts generiert und durch die Einführung des neuen Benchmarks JavisBench sowie einer robusten Metrik einen neuen Standard für diese Aufgabe setzt.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

Die Arbeit stellt STEP vor, einen leichten, selbstaufmerksamen zeitlichen Probing-Ansatz, der durch die Modellierung der Frame-Reihenfolge die Erkennung nahezu symmetrischer Aktionen in der Mensch-Roboter-Interaktion verbessert und dabei sowohl herkömmliches Probing als auch aufwendigere Parameter-Effiziente Feinabstimmungsmethoden übertrifft.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

Die Arbeit stellt DL4ND, eine neue Methode zur Rauscherkennung, vor, die durch die Nutzung von Domänenlabels die Grenzen bestehender Ansätze für das Lernen mit verrauschten Labels und die Domänengeneralisierung überwindet und so eine robuste Generalisierung unter kombinierten Bedingungen ermöglicht.

Siqi Wang, Aoming Liu, Bryan A. Plummer2026-02-24🤖 cs.LG

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

Das Paper stellt nnLandmark vor, ein selbstkonfigurierendes Framework für die 3D-Landmarkenerkennung in der Medizin, das durch die Wiederverwendung von nnU-Net-Komponenten und standardisierte Benchmarking-Tools einen neuen State-of-the-Art erreicht und die Entwicklung sowie den fairen Vergleich neuer Methoden ohne manuelle Hyperparameteranpassung ermöglicht.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Die Arbeit stellt eine konfidenzgesteuerte Aufmerksamkeitsmethode vor, die durch adaptive Gewichtsreduktion und eine Klassifizierungsverlustfunktion Rauschen in der semi-dichten Merkmalszuordnung minimiert und damit den aktuellen Stand der Technik auf drei Benchmarks übertrifft.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

Die Arbeit stellt GRILL vor, eine Technik, die durch die lokale Wiederherstellung von Gradientensignalen in schlecht konditionierten Schichten die Wirksamkeit von Adversarial Attacks auf Autoencoder und ähnliche Encoder-Decoder-Architekturen signifikant steigert, um deren Robustheit rigoroser zu bewerten.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

← Zurück Weiter →