cs.CV Arbeiten | Gist.Science

LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

Die Studie „LRR-Bench" stellt fest, dass Vision-Language-Modelle bei der räumlichen Erfassung von Objekten und Bewegungen im Vergleich zum menschlichen Leistungsvermögen erhebliche Defizite aufweisen, was durch einen neu entwickelten synthetischen Benchmark untermauert wird.

Fei Kong, Jinhao Duan, Kaidi Xu + 3 more2026-02-24🤖 cs.AI

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

Die Arbeit stellt „Follow-Your-Shape" vor, ein training- und maskenfreies Framework, das mittels einer Trajektorien-Divergenz-Karte und einer geplanten KV-Injektion präzise Formänderungen in Bildern ermöglicht, ohne den Hintergrund zu beeinträchtigen, und durch die Einführung des ReShapeBench-Benchmarks eine rigorose Evaluierung für solche Aufgaben bietet.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

Real-Time Sign Language Gestures to Speech Transcription using Deep Learning

Dieses Projekt stellt ein Echtzeit-System vor, das mithilfe von Convolutional Neural Networks (CNN) und dem Sign Language MNIST-Datensatz Gebärdensprachgesten über eine Webcam erfasst und in Text sowie gesprochene Sprache übersetzt, um die Kommunikation für gehörlose und sprachbeeinträchtigte Menschen zu erleichtern.

Brandone Fonya, Clarence Worrell2026-02-24💻 cs

Collaborative Multi-Modal Coding for High-Quality 3D Generation

Das Paper stellt TriMM vor, das erste feed-forward generative 3D-Modell, das durch kollaborative Multi-Modalitäts-Codierung und zusätzliche 2D/3D-Supervision hochwertige 3D-Assets mit verbesserten Texturen und Geometrien aus verschiedenen Modalitäten wie RGB, RGBD und Punktwolken erzeugt.

Ziang Cao, Zhaoxi Chen, Liang Pan + 1 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Die Studie stellt FLUID vor, einen feinkörnigen, leichten Datensatz für dichtes Konfliktraumverhalten an städtischen signalisierten Kreuzungen, der über eine effiziente Drohnen-basierte Verarbeitungskette gewonnen wurde und umfassende Trajektorien, Verkehrszeichen sowie hochpräzise Konflikt- und Verletzungsinformationen für die Forschung im Bereich autonomes Fahren und Verkehrsmodellierung bereitstellt.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Diese Studie stellt einen KI-gestützten, multimodalen Rahmen vor, der mithilfe von Social-Media-Daten und Straßenansichten touristische Wahrnehmungen in historischen Vierteln Shanghais analysiert, um Diskrepanzen zwischen der wahrgenommenen und der tatsächlichen Umgebung aufzudecken und so das Heritage-Management sowie die städtebauliche Gestaltung zu unterstützen.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

MOGS: Monocular Object-guided Gaussian Splatting in Large Scenes

Die Arbeit stellt MOGS vor, ein monokulares Framework für 3D-Gaussian-Splatting in großen Szenen, das durch die Nutzung von objektspezifischen Formpriors und sparsem visuell-inertialem SfM eine kostengünstige, speichereffiziente und schnelle Alternative zu teuren LiDAR-basierten Systemen bietet.

Shengkai Zhang, Yuhe Liu, Jianhua He + 3 more2026-02-24💻 cs

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Diese Arbeit zeigt, dass die in depthwise-separablen ConvNeXt-Netzen gelernten Filter durch diskrete Skalenraumfilter, die auf Differenzoperatoren und Gauß-Kernen basieren, effektiv modelliert und approximiert werden können.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Diese Arbeit stellt eine neuartige, extrem effiziente Methode zur räumlich-zeitlichen Kalibrierung von IMU-Kamera-Systemen vor, die durch den Einsatz diskreter Zustandsdarstellungen den hohen Rechenaufwand herkömmlicher kontinuierlicher Ansätze vermeidet und gleichzeitig eine präzise zeitliche Kalibrierung ermöglicht.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Die Arbeit stellt RangeSAM vor, ein neuartiges Framework, das den Visual Foundation Model SAM2 durch spezifische architektonische Anpassungen an LiDAR-Reichweitenbilder anpasst, um eine effiziente und präzise 3D-Segmentierung für das autonome Fahren zu ermöglichen.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Diese Studie bewertet verschiedene Maße für die Repräsentationsähnlichkeit in neuronalen Systemen und zeigt, dass deren Integration mittels Similarity Network Fusion eine präzisere Trennung von Modellfamilien und eine klarere Rekonstruktion der hierarchischen Organisation des visuellen Kortex ermöglicht als einzelne Metriken.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Das Paper stellt WAVE vor, ein bahnbrechendes, auf Multimodal-LLMs basierendes Embedding-Modell, das erstmals einen einheitlichen Raum für Text, Audio und Video schafft und durch eine hierarchische Fusionsstrategie sowie ein gemeinsames Multi-Task-Training state-of-the-art Ergebnisse in Aufgaben wie cross-modalem Retrieval und prompt-bewusster multimodaler Fragebeantwortung erzielt.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

Die Arbeit stellt CMT (Consistency Mid-Training) vor, eine effiziente und stabile Methode, die durch eine neue mittlere Trainingsphase zwischen Vor- und Nachtraining Flow-Map-Modelle wie Consistency Models und Mean Flow mit deutlich reduziertem Rechenaufwand und Datenbedarf auf State-of-the-Art-Niveau bringt.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Die Arbeit stellt AlignTok vor, eine dreistufige Methode zur Ausrichtung vortrainierter visueller Encoder an Tokenizer für Diffusionsmodelle, die durch die Nutzung semantischer Strukturen von Foundation-Modellen im Vergleich zu herkömmlichen VAEs eine schnellere Konvergenz und überlegene Bildgenerierungsqualität ermöglicht.

Bowei Chen, Sai Bi, Hao Tan + 6 more2026-02-24💻 cs

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

Die Arbeit stellt SAGE vor, ein einheitliches Trainingsverfahren für die visuelle Ortserkennung, das durch eine adaptive Graph-Exploration, einen Soft-Probing-Modul zur lokalen Merkmalsverbesserung und ein dynamisches Hard-Sample-Mining auf einer DINOv2-Basis neue State-of-the-Art-Ergebnisse auf acht Benchmarks erzielt.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

Flower: A Flow-Matching Solver for Inverse Problems

Die Arbeit stellt Flower vor, einen Flow-Matching-basierten Solver für lineare inverse Probleme, der durch einen iterativen Prozess aus Vorhersage, Projektion und Zeitfortschreitung hochwertige Rekonstruktionen liefert und dabei theoretische Einblicke in die Approximation des bayesschen Posterior-Sampling bietet.

Mehrsa Pourya, Bassam El Rawas, Michael Unser2026-02-24🤖 cs.LG

VIRTUE: Visual-Interactive Text-Image Universal Embedder

Das Paper stellt VIRTUE vor, ein neuartiges multimodales Embedding-Modell, das durch die Integration von visuellen Interaktionen (wie Punkten oder Masken) die präzise Lokalisierung von Bildregionen ermöglicht und gleichzeitig auf einem neuen SCaR-Benchmark sowie in 36 universellen Aufgaben state-of-the-art Ergebnisse erzielt.

Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu + 2 more2026-02-24🤖 cs.AI

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Die Arbeit stellt RewardMap vor, ein mehrstufiges Reinforcement-Learning-Framework mit einem difficulty-basierten Belohnungsdesign, das das Problem der spärlichen Belohnungen bei der feingranularen visuellen Schlussfolgerung in multimodalen Sprachmodellen löst und durch die Einführung des ReasonMap-Plus-Datensatzes sowie eine gestufte Trainingsstrategie signifikante Leistungsverbesserungen erzielt.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

Die Arbeit stellt OBS-Diff vor, ein neuartiges, trainingsfreies One-Shot-Pruning-Framework, das durch eine an die iterativen Dynamiken von Diffusionsmodellen angepasste Hessian-Matrix und eine effiziente Gruppen-Pruning-Strategie eine präzise Kompression großer Text-zu-Bild-Modelle ermöglicht, ohne die visuelle Qualität signifikant zu beeinträchtigen.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Die Arbeit stellt EDJE vor, einen effizienten diskriminativen Joint Encoder, der durch die Offline-Vorverarbeitung und Kompression von Bild-Tokens die Rechenkosten für das Reranking von Vision-Language-Daten drastisch senkt, ohne dabei die Retrieval-Leistung einzubüßen.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

← Zurück Weiter →