cs.CV Arbeiten | Gist.Science

Face Pyramid Vision Transformer

Die Arbeit stellt das Face Pyramid Vision Transformer (FPVT) vor, ein neuartiges Modell, das durch die Kombination von CNN-Eigenschaften mit Vision-Transformern und speziellen Reduktionsmechanismen eine kompakte, hochleistungsfähige Gesichtserkennung mit weniger Parametern als bestehende State-of-the-Art-Methoden ermöglicht.

Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood2026-02-24💻 cs

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Die Studie kombiniert menschliche Psychophysik und computergestützte Modellierung, um zu zeigen, dass sowohl Menschen als auch das neu entwickelte, biologisch inspirierte Selbstüberwachungsmodell SeCo kontextuelle Beziehungen in Szenen schnell und ohne explizite Labels erlernen können, um verborgene Objekte zuverlässig zu inferieren.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion

Die Arbeit stellt RDFC-GAN vor, einen neuartigen Zwei-Branch-End-to-End-Fusionsnetzwerk, das RGB- und unvollständige Tiefenbilder nutzt, um durch die Kombination einer auf der Manhattan-Welt-Annahme basierenden Encoder-Decoder-Struktur und eines RGB-Tiefen-Fusions-CycleGAN dichte Tiefenkarten für Innenräume zu rekonstruieren.

Haowen Wang, Zhengping Che, Yufan Yang + 6 more2026-02-24🤖 cs.AI

Adaptive Runge-Kutta Dynamics for Spatiotemporal Prediction

Diese Arbeit stellt ein physikgesteuertes neuronales Netzwerk vor, das eine adaptive Runge-Kutta-Methode zweiter Ordnung mit physikalischen Constraints und eine frequenzverstärkte Fourier-Modulierung kombiniert, um die räumlich-zeitliche Vorhersage in Aufgaben wie Wetterprognosen und Videovorhersage mit höherer Präzision und geringerem Parameterbedarf als bestehende Methoden zu verbessern.

Xuanle Zhao, Yue Sun, Ziyi Wang + 2 more2026-02-24🤖 cs.AI

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Diese Studie zeigt, dass ein mit DeepLabCut individuell trainiertes und verfeinertes System (DLCCT) markerlose Ganganalysen präziser durchführt als vortrainierte Modelle oder OpenPose, und bietet damit eine kostengünstige Alternative für klinische Anwendungen in natürlichen Umgebungen.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

Die Arbeit stellt PASS vor, ein neuartiges rekurrentes Hypernetzwerk, das visuelle Prompts nutzt, um die Kanalbedeutung in großen neuronalen Netzen zu erfassen und dadurch effizientere strukturelle Sparsamkeiten mit höherer Genauigkeit und Geschwindigkeit als herkömmliche Methoden zu identifizieren.

Tianjin Huang, Fang Meng, Li Shen + 5 more2026-02-24🤖 cs.AI

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Die Arbeit stellt MathScape vor, ein neues Benchmark mit 1.369 realen mathematischen Problemen, das zeigt, dass selbst fortschrittliche multimodale Sprachmodelle bei der Lösung komplexer, realweltlicher Aufgaben hinter menschlichen Leistungen zurückbleiben und sich ihre Ergebnisse bei synthetischen Daten nicht auf reale Szenarien übertragen lassen.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

$R^2$ -Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement

Das Paper stellt $R^2$ -Mesh vor, ein Reinforcement-Learning-Framework, das durch die Kombination von NeRF-generierten Pseudo-Supervisionsdaten und einer UCB-basierten, geometriebewussten Strategie zur dynamischen Auswahl informativer Blickwinkel die geometrische Genauigkeit und die Wiedergabequalität bei der Mesh-Rekonstruktion verbessert.

Haoyang Wang, Liming Liu, Xinggong Zhang2026-02-24💻 cs

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

Die vorgestellte Arbeit stellt CT-AGRG vor, ein automatisiertes Modell, das aus 3D-Bildern der Thorax-CT zunächst Anomalien vorhersagt und darauf aufbauend gezielte Befundberichte generiert, um die Qualität und klinische Relevanz im Vergleich zu ungerichteten Ansätzen zu verbessern.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess

Geometry Distributions

Die Arbeit stellt eine neue geometrische Datenrepräsentation vor, die Geometrie als Verteilungen modelliert und mithilfe von Diffusionsmodellen feine Details erfasst, um die Einschränkungen herkömmlicher koordinatenbasierter Netzwerke bei dünnen Strukturen und nicht wasserdichten Geometrien zu überwinden.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

Die Arbeit stellt Speedy-Splat vor, eine Methode zur Beschleunigung der 3D-Gaussian-Splatting-Rendering-Pipeline durch die Optimierung der Gauss-Ortung und die Einführung eines neuen Pruning-Verfahrens, was zu einer drastischen Steigerung der Wiedergabegeschwindigkeit, einer Verkleinerung des Modells und einer kürzeren Trainingszeit führt.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

Die Arbeit stellt MEt3R vor, eine metrik zur Bewertung der Multi-View-Konsistenz generierter Bilder durch den Vergleich von gewarpten Bildinhalten und Feature-Maps mittels DUSt3R, um eine von der Probiermethode unabhängige Qualitätsmessung zu ermöglichen.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

Diese Arbeit stellt eine neue, polynomiale Lösung für das Perspektive-Vier-Punkte-Problem vor, die durch eine innovative Variablentrennung und eine Reduktion auf das absolute Orientierungsproblem eine um eine Größenordnung schnellere Berechnung bei vergleichbarer Genauigkeit ermöglicht.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Die Studie stellt ein innovatives selbstüberwachtes Lernframework vor, das räumliche und zeitliche Kontrastierung von Street-View-Bildern nutzt, um robuste Repräsentationen für dynamische und gebaute Umgebungen zu erlernen, die in Aufgaben wie der sozioökonomischen Schätzung und der visuellen Ortserkennung deutlich besser abschneiden als herkömmliche Methoden.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Die Studie stellt SAMRI-2 vor, ein interaktives, speicherbasiertes Deep-Learning-Modell, das durch eine Hybrid-Shuffle-Strategie und eine geringe Anzahl an Benutzerinteraktionen die präzise Segmentierung von Knorpel und Meniskus in 3D-Knie-MRTs übertrifft und so die Effizienz und Genauigkeit bei der Diagnose von Kniearthrose verbessert.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Die vorgestellte Arbeit stellt IVPT vor, ein neuartiges Framework für das visuelle Prompt Tuning, das durch die Einführung von konzeptbasierten Prototypen über mehrere Netzwerkschichten hinweg erstmals interpretierbare und leistungsfähige Anpassungen vortrainierter visueller Grundmodelle ermöglicht.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Die Arbeit stellt Hier-COS vor, ein neuartiges Framework zur hierarchiebewussten Klassifizierung, das durch die Komposition orthogonaler Unterräume theoretisch konsistente Repräsentationen liefert und zusammen mit dem neuen Bewertungsmetrik HOPS den aktuellen Stand der Technik auf mehreren Datensätzen übertrifft.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Die Arbeit stellt SpHOR vor, eine Methode zur offenen Erkennung, die durch orthogonale Label-Embeddings, sphärische Constraints und integrierte Regularisierungstechniken das Merkmalsrepräsentationslernen gezielt optimiert, um unbekannte Klassen in Deep-Learning-Modellen präziser zu identifizieren und dabei den aktuellen Stand der Technik zu übertreffen.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

Die Arbeit stellt PSGait vor, ein neuartiges Framework, das durch die Fusion von Silhouetten mit einer hochinformativen „Parsing Skeleton"-Darstellung die Genauigkeit und Generalisierbarkeit der Gangerkennung in realen Szenarien bei gleichzeitig reduzierter Rechenkomplexität signifikant verbessert.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

Das Paper stellt VideoMind vor, einen neuartigen Video-Sprach-Agenten, der durch einen rollenbasierten Workflow und einen effizienten Chain-of-LoRA-Mechanismus präzises, zeitlich verankertes Video-Reasoning über 15 Benchmarks hinweg ermöglicht.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

← Zurück Weiter →

cs.CV