cs.CV Arbeiten | Gist.Science

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

Das Paper stellt PoseCraft vor, ein Diffusionsframework, das diskretisierte 3D-Körperlandmarken und Kameraparameter als Conditioning-Tokens nutzt, um fotorealistische menschliche Avatare mit präziser Pose- und Kamerasteuerung zu synthetisieren und dabei die Grenzen bestehender rigging-basierter oder volumetrischer Methoden zu überwinden.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

Die Studie „MentalBlackboard" stellt einen Benchmark für die räumliche Visualisierung von Vision-Language-Modellen mittels Papierfaltungs- und Lochbohrungsaufgaben vor und zeigt, dass selbst fortschrittliche Modelle bei der Anwendung symmetrischer Transformationen und der räumlichen Planung erhebliche Schwierigkeiten haben.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Referring Layer Decomposition

Die Arbeit stellt die neue Aufgabe der „Referring Layer Decomposition" (RLD) vor, die durch den großen Datensatz RefLade und das Basismodell RefLayer ermöglicht, aus einzelnen RGB-Bildern unter Verwendung flexibler Benutzeranweisungen präzise, objektbewusste RGBA-Ebenen zu generieren.

Fangyi Chen, Yaojie Shen, Lu Xu + 4 more2026-02-24💻 cs

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Die Studie zeigt, dass Zeitreihen, Vision und Sprache in kontrastiven Repräsentationsräumen zwar durch nachträgliches Alignment verbunden werden können, wobei Zeitreihen stärker mit visuellen als mit sprachlichen Daten korrelieren und Bilder als effektive Vermittler fungieren, während die Informationsdichte der Eingaben nur bis zu einem bestimmten Schwellenwert die Ausrichtung verbessert.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI

Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization

Die Arbeit stellt einen neuartigen Testzeit-Berechnungsrahmen für die Optimierung von VLM-Roboterstrategien vor, der durch eine entkoppelte, wertgeleitete Mehrpfad-Reflexion und einen skalierbaren Kritiker die Erfolgsrate um 24,6 % steigert und die Inferenzzeit gleichzeitig um 56,5 % reduziert.

Yanting Yang, Shenyuan Gao, Qingwen Bu + 2 more2026-02-24🤖 cs.LG

Redefining the Down-Sampling Scheme of U-Net for Precision Biomedical Image Segmentation

Diese Arbeit stellt eine neue „Stair Pooling"-Strategie vor, die durch schrittweise Down-Sampling-Operationen den Informationsverlust in U-Net-Architekturen reduziert und damit die Präzision der biomedizinischen Bildsegmentierung signifikant verbessert.

Mingjie Li, Yizheng Chen, Md Tauhidul Islam + 1 more2026-02-24🤖 cs.AI

PA-Attack: Guiding Gray-Box Attacks on LVLM Vision Encoders with Prototypes and Attention

Die Arbeit stellt PA-Attack vor, eine effiziente Graubox-Angriffsmethode für Large Vision-Language Models, die durch prototypenbasierte Führung und einen zweistufigen Aufmerksamkeitsmechanismus eine hohe Generalisierungsfähigkeit und Wirksamkeit über verschiedene Aufgaben hinweg erreicht.

Hefei Mei, Zirui Wang, Chang Xu + 2 more2026-02-24💻 cs

CountEx: Fine-Grained Counting via Exemplars and Exclusion

Die Arbeit stellt CountEx vor, ein diskriminatives visuelles Zählframework, das durch die Kombination von Inklusions- und Exklusionshinweisen sowie einen neuartigen Modul zur Abfrageverfeinerung die Unterscheidung ähnlicher Objekte in überfüllten Szenen verbessert, und führt zudem den CoCount-Benchmark zur systematischen Evaluierung ein.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai2026-02-24💻 cs

FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

Der Artikel stellt FinSight-Net vor, einen effizienten, physikbewussten Detektor für die Unterwasser-Fischerkennung, der durch einen entkoppelten Dual-Stream-Prozess und frequenzdomänische Kompensation die durch Wasserabsorption und Trübung verursachten Bildverzerrungen ausgleicht und dabei sowohl die Genauigkeit als auch die Rechengeschwindigkeit im Vergleich zu bestehenden Modellen wie YOLOv11s signifikant verbessert.

Jinsong Yang, Zeyuan Hu, Yichen Li + 1 more2026-02-24🤖 cs.AI

Decoupling Vision and Language: Codebook Anchored Visual Adaptation

Die Arbeit stellt CRAFT vor, eine leichte Methode zur Entkopplung von Vision und Sprache in großen Vision-Language-Modellen durch die Verwendung eines diskreten Codebuchs zur Verankerung visueller Darstellungen, was eine effiziente Domänenanpassung ohne Eingriffe in die Spracharchitektur ermöglicht und gleichzeitig die Leistung in spezifischen visuellen Aufgaben signifikant steigert.

Jason Wu, Tianchen Zhao, Chang Liu + 7 more2026-02-24💻 cs

HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

Die Arbeit stellt HD-TTA vor, einen hypothesengesteuerten Test-Time-Adaptation-Ansatz, der durch die autonome Auswahl zwischen komprimierenden und inflationierenden geometrischen Hypothesen sowie eine Gatekeeper-Vorauswahl die Sicherheit der Hirntumor-Segmentierung in kritischen klinischen Szenarien verbessert, indem sie das Risiko von Übersegmentierung minimiert und gleichzeitig die Präzision erhöht.

Kartik Jhawar, Lipo Wang2026-02-24💻 cs

Laplacian Multi-scale Flow Matching for Generative Modeling

Die vorgestellte Arbeit stellt LapFlow vor, ein neuartiges Framework für die generative Bildmodellierung, das durch die parallele Verarbeitung von Laplace-Pyramiden-Residuen mittels einer Mixture-of-Transformers-Architektur die Bildqualität verbessert und gleichzeitig die Rechenkosten sowie die Inferenzzeit im Vergleich zu herkömmlichen Flow-Matching-Methoden reduziert.

Zelin Zhao, Petr Molodyk, Haotian Xue + 1 more2026-02-24🤖 cs.LG

Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces

Die Autoren stellen ein physikbasiertes Deep-Learning-Framework vor, das durch die Kombination von Polarisationsdaten und strukturiertem Licht in einem einzigen Aufnahmevorgang präzise und robuste 3D-Rekonstruktionen komplexer, spiegelnder Oberflächen ermöglicht.

Jiazhang Wang, Hyelim Yang, Tianyi Wang + 1 more2026-02-24🔬 physics.optics

Forgetting-Resistant and Lesion-Aware Source-Free Domain Adaptive Fundus Image Analysis with Vision-Language Model

Diese Arbeit stellt eine neue, vergessensresistente und läsionsbewusste Methode (FRLA) für die quellfreie Domänenanpassung bei der Analyse von Fundusbildern vor, die ein Vision-Language-Modell nutzt, um das Vergessen robuster Vorhersagen zu verhindern und feingranulare Läsionsinformationen für eine präzisere Diagnose zu integrieren.

Zheang Huai, Hui Tang, Hualiang Wang + 1 more2026-02-24💻 cs

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Diese Arbeit stellt MICON-Bench vor, einen umfassenden Benchmark zur Bewertung der Mehrbild-Generierung in multimodalen Modellen, und kombiniert ihn mit einem MLLM-basierten Evaluierungsframework sowie dem training-freien Mechanismus Dynamic Attention Rebalancing (DAR), um die Kohärenz und Qualität bei der kontextbasierten Bildgenerierung zu verbessern.

Mingrui Wu, Hang Liu, Jiayi Ji + 2 more2026-02-24💻 cs

A Text-Guided Vision Model for Enhanced Recognition of Small Instances

Die Studie stellt ein verbessertes, textgesteuertes YOLO-World-Modell vor, das durch den Austausch der C2f-Schicht gegen eine C3k2-Schicht und eine Parallelisierungs-Optimierung die Erkennung kleiner Objekte auf Drohnenbildern präziser macht und dabei gleichzeitig die Parameterzahl sowie die Rechenlast reduziert.

Hyun-Ki Jung2026-02-24💻 cs

Test-Time Computing for Referring Multimodal Large Language Models

Die Arbeit stellt ControlMLLM++ vor, einen Testzeit-Anpassungsrahmen, der lernbare visuelle Prompts in eingefrorene multimodale Sprachmodelle injiziert, um durch die Optimierung latenter visueller Token während der Inferenz eine feinkörnige, regionsbasierte visuelle Schlussfolgerung ohne Nachtraining zu ermöglichen.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

Die Arbeit stellt Relational Feature Caching (RFC) vor, ein neuartiges Framework, das durch die Nutzung der Korrelation zwischen Eingabe- und Ausgabe-Features die Vorhersagegenauigkeit bei Diffusion-Transformern verbessert und so die Rechenzeit im Vergleich zu rein zeitbasierten Caching-Ansätzen signifikant reduziert.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Die vorgestellte Arbeit führt ein variationsbasiertes Framework für Diffusionsmodelle mit anisotropen Rauschplänen ein, das durch die gemeinsame Optimierung eines Score-Netzwerks und einer matrixwertigen Pfadparameterisierung sowie einen effizienten Heun-basierten ODE-Löser eine konsistente Verbesserung gegenüber dem Baseline-EDM-Modell auf verschiedenen Datensätzen erzielt.

Pengxi Liu, Zeyu Michael Li, Xiang Cheng2026-02-24🤖 cs.LG

OSInsert: Towards High-authenticity and High-fidelity Image Composition

Die Arbeit stellt OSInsert vor, eine zweistufige Strategie, die durch die Kombination einer hochauthentischen Methode zur Anpassung der Vordergrundpose mit einer hochfidelen Methode zur Detailerhaltung erstmals gleichzeitig realistische und detailgetreue Bildkompositionen ermöglicht.

Jingyuan Wang, Li Niu2026-02-24💻 cs

← Zurück Weiter →