cs.CV Arbeiten | Gist.Science

Feature Representation Transferring to Lightweight Models via Perception Coherence

Diese Arbeit stellt eine Methode zur Wissensübertragung auf leichte Modelle vor, die durch die mathematische Definition von „Perzeptionskohärenz" und einen darauf basierenden Verlustfunktion auf Rangordnungen der Dissimilarität im Merkmalsraum eine probabilistische Perspektive ermöglicht und damit bestehende Basismethoden in der Leistung übertrifft oder mit ihnen gleichzieht.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

Die Studie stellt U2-BENCH vor, den ersten umfassenden Benchmark zur Evaluierung von Large Vision-Language-Modellen in der Ultraschalldiagnostik, der 23 Modelle über 8 klinische Aufgaben hinweg testet und dabei zwar gute Klassifikationsfähigkeiten, aber weiterhin erhebliche Herausforderungen bei der räumlichen Reasoning und der Generierung klinischer Berichte aufzeigt.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

Die Arbeit stellt TEMU-VTOFF vor, ein textgestütztes Multi-Kategorie-Framework, das mittels eines dualen DiT-Backbones und eines Ausrichtungsmoduls aus Fotos bekleideter Personen hochwertige, standardisierte Produktbilder von Kleidungsstücken rekonstruiert und dabei den Verlust von Details sowie visuelle Mehrdeutigkeiten überwindet.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Die Autoren stellen einen neuartigen neuronalen B-Bild-Codec vor, der durch eine feingranulare Motion-Kompression mit interaktivem Dual-Branch-Autoencoder und eine selektive zeitliche Fusion mit Hyperprior-basierter Ausrichtung die Effizienz signifikant steigert und dabei sowohl den aktuellen State-of-the-Art-Codec DCVC-B als auch den H.266/VVC-Referenzstandard übertrifft.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Diese Arbeit stellt die neue Metrik „Perception Characteristics Distance" (PCD) vor, die die Unsicherheit von Wahrnehmungsalgorithmen berücksichtigt, und validiert sie mithilfe des neu erstellten SensorRainFall-Datensatzes unter verschiedenen Wetter- und Lichtbedingungen, um die Stabilität und Robustheit autonomer Fahrsysteme besser zu bewerten als herkömmliche Kennzahlen.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Die Studie zeigt, dass die Integration von Referenzbildern gesunder Kontrollpersonen in visuell-sprachliche Modelle die medizinische Diagnoseleistung durch vergleichende Analyse und gezieltes Fine-Tuning signifikant verbessert.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Diese Arbeit stellt ein neues Framework namens Doomer vor, das mithilfe von drei Smartphone-Kameras mit spektralen Filtern und einem leichten Ausrichtungsmodul präzisere hyperspektrale Bilder aus mehreren ungenau ausgerichteten RGB-Aufnahmen rekonstruiert und dabei die Genauigkeit gegenüber herkömmlichen Einzelbild-Methoden um bis zu 30 % steigert.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Die vorgestellte Arbeit stellt SCINet vor, ein neuartiges Framework für das partielle Multi-Label-Learning, das semantische Ko-occurrence-Muster durch die Integration eines bi-dominanten Prompters, einer Cross-Modality-Fusion und intrinsischer semantischer Augmentierung nutzt, um unvollständig annotierte Daten effektiver zu verarbeiten und den aktuellen Stand der Technik zu übertreffen.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second

MoVieS ist ein Motion-Aware-Modell, das dynamische 4D-Szenen aus monokularen Videos in einer Sekunde rekonstruiert und durch die Verwendung pixel-aligneder Gaußscher Primitiven sowie eine explizite Bewegungsüberwachung erstmals eine einheitliche Modellierung von Erscheinung, Geometrie und Bewegung innerhalb eines einzigen Lernrahmens ermöglicht.

Chenguo Lin, Yuchen Lin, Panwang Pan + 5 more2026-02-24💻 cs

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

Der Artikel stellt Winsor-CAM vor, eine effiziente und anpassbare Methode zur Visualisierung von CNN-Entscheidungen, die durch die Aggregation von Grad-CAM-Karten aller Faltungsschichten und eine percentilbasierte Winsorisierung robustere und präzise Erklärungen liefert, die in medizinischen und sicherheitskritischen Anwendungen die Leistung bestehender Methoden übertreffen.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI

DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment

Die Arbeit stellt DEFNet vor, ein auf Evidenzlernen basierendes tiefes Netzwerk für die blinde Bildqualitätsbewertung, das durch eine multitask-optimierte Architektur mit Szenen- und Verzerrungsklassifikation sowie eine neuartige, evidenzbasierte Unsicherheitsschätzung und Informationsfusion robuste und generalisierbare Ergebnisse erzielt.

Yiwei Lou, Yuanpeng He, Rongchao Zhang + 3 more2026-02-24⚡ eess

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

Die Studie „LRR-Bench" stellt fest, dass Vision-Language-Modelle bei der räumlichen Erfassung von Objekten und Bewegungen im Vergleich zum menschlichen Leistungsvermögen erhebliche Defizite aufweisen, was durch einen neu entwickelten synthetischen Benchmark untermauert wird.

Fei Kong, Jinhao Duan, Kaidi Xu + 3 more2026-02-24🤖 cs.AI

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

Die Arbeit stellt „Follow-Your-Shape" vor, ein training- und maskenfreies Framework, das mittels einer Trajektorien-Divergenz-Karte und einer geplanten KV-Injektion präzise Formänderungen in Bildern ermöglicht, ohne den Hintergrund zu beeinträchtigen, und durch die Einführung des ReShapeBench-Benchmarks eine rigorose Evaluierung für solche Aufgaben bietet.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

Real-Time Sign Language Gestures to Speech Transcription using Deep Learning

Dieses Projekt stellt ein Echtzeit-System vor, das mithilfe von Convolutional Neural Networks (CNN) und dem Sign Language MNIST-Datensatz Gebärdensprachgesten über eine Webcam erfasst und in Text sowie gesprochene Sprache übersetzt, um die Kommunikation für gehörlose und sprachbeeinträchtigte Menschen zu erleichtern.

Brandone Fonya, Clarence Worrell2026-02-24💻 cs

Collaborative Multi-Modal Coding for High-Quality 3D Generation

Das Paper stellt TriMM vor, das erste feed-forward generative 3D-Modell, das durch kollaborative Multi-Modalitäts-Codierung und zusätzliche 2D/3D-Supervision hochwertige 3D-Assets mit verbesserten Texturen und Geometrien aus verschiedenen Modalitäten wie RGB, RGBD und Punktwolken erzeugt.

Ziang Cao, Zhaoxi Chen, Liang Pan + 1 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Die Studie stellt FLUID vor, einen feinkörnigen, leichten Datensatz für dichtes Konfliktraumverhalten an städtischen signalisierten Kreuzungen, der über eine effiziente Drohnen-basierte Verarbeitungskette gewonnen wurde und umfassende Trajektorien, Verkehrszeichen sowie hochpräzise Konflikt- und Verletzungsinformationen für die Forschung im Bereich autonomes Fahren und Verkehrsmodellierung bereitstellt.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Diese Studie stellt einen KI-gestützten, multimodalen Rahmen vor, der mithilfe von Social-Media-Daten und Straßenansichten touristische Wahrnehmungen in historischen Vierteln Shanghais analysiert, um Diskrepanzen zwischen der wahrgenommenen und der tatsächlichen Umgebung aufzudecken und so das Heritage-Management sowie die städtebauliche Gestaltung zu unterstützen.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

MOGS: Monocular Object-guided Gaussian Splatting in Large Scenes

Die Arbeit stellt MOGS vor, ein monokulares Framework für 3D-Gaussian-Splatting in großen Szenen, das durch die Nutzung von objektspezifischen Formpriors und sparsem visuell-inertialem SfM eine kostengünstige, speichereffiziente und schnelle Alternative zu teuren LiDAR-basierten Systemen bietet.

Shengkai Zhang, Yuhe Liu, Jianhua He + 3 more2026-02-24💻 cs

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Diese Arbeit zeigt, dass die in depthwise-separablen ConvNeXt-Netzen gelernten Filter durch diskrete Skalenraumfilter, die auf Differenzoperatoren und Gauß-Kernen basieren, effektiv modelliert und approximiert werden können.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Diese Arbeit stellt eine neuartige, extrem effiziente Methode zur räumlich-zeitlichen Kalibrierung von IMU-Kamera-Systemen vor, die durch den Einsatz diskreter Zustandsdarstellungen den hohen Rechenaufwand herkömmlicher kontinuierlicher Ansätze vermeidet und gleichzeitig eine präzise zeitliche Kalibrierung ermöglicht.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

← Zurück Weiter →