PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

Das Paper stellt PoseCraft vor, ein Diffusionsframework, das diskretisierte 3D-Körperlandmarken und Kameraparameter als Conditioning-Tokens nutzt, um fotorealistische menschliche Avatare mit präziser Pose- und Kamerasteuerung zu synthetisieren und dabei die Grenzen bestehender rigging-basierter oder volumetrischer Methoden zu überwinden.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Die Studie zeigt, dass Zeitreihen, Vision und Sprache in kontrastiven Repräsentationsräumen zwar durch nachträgliches Alignment verbunden werden können, wobei Zeitreihen stärker mit visuellen als mit sprachlichen Daten korrelieren und Bilder als effektive Vermittler fungieren, während die Informationsdichte der Eingaben nur bis zu einem bestimmten Schwellenwert die Ausrichtung verbessert.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI

FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

Der Artikel stellt FinSight-Net vor, einen effizienten, physikbewussten Detektor für die Unterwasser-Fischerkennung, der durch einen entkoppelten Dual-Stream-Prozess und frequenzdomänische Kompensation die durch Wasserabsorption und Trübung verursachten Bildverzerrungen ausgleicht und dabei sowohl die Genauigkeit als auch die Rechengeschwindigkeit im Vergleich zu bestehenden Modellen wie YOLOv11s signifikant verbessert.

Jinsong Yang, Zeyuan Hu, Yichen Li + 1 more2026-02-24🤖 cs.AI

Decoupling Vision and Language: Codebook Anchored Visual Adaptation

Die Arbeit stellt CRAFT vor, eine leichte Methode zur Entkopplung von Vision und Sprache in großen Vision-Language-Modellen durch die Verwendung eines diskreten Codebuchs zur Verankerung visueller Darstellungen, was eine effiziente Domänenanpassung ohne Eingriffe in die Spracharchitektur ermöglicht und gleichzeitig die Leistung in spezifischen visuellen Aufgaben signifikant steigert.

Jason Wu, Tianchen Zhao, Chang Liu + 7 more2026-02-24💻 cs

HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

Die Arbeit stellt HD-TTA vor, einen hypothesengesteuerten Test-Time-Adaptation-Ansatz, der durch die autonome Auswahl zwischen komprimierenden und inflationierenden geometrischen Hypothesen sowie eine Gatekeeper-Vorauswahl die Sicherheit der Hirntumor-Segmentierung in kritischen klinischen Szenarien verbessert, indem sie das Risiko von Übersegmentierung minimiert und gleichzeitig die Präzision erhöht.

Kartik Jhawar, Lipo Wang2026-02-24💻 cs

Forgetting-Resistant and Lesion-Aware Source-Free Domain Adaptive Fundus Image Analysis with Vision-Language Model

Diese Arbeit stellt eine neue, vergessensresistente und läsionsbewusste Methode (FRLA) für die quellfreie Domänenanpassung bei der Analyse von Fundusbildern vor, die ein Vision-Language-Modell nutzt, um das Vergessen robuster Vorhersagen zu verhindern und feingranulare Läsionsinformationen für eine präzisere Diagnose zu integrieren.

Zheang Huai, Hui Tang, Hualiang Wang + 1 more2026-02-24💻 cs

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Diese Arbeit stellt MICON-Bench vor, einen umfassenden Benchmark zur Bewertung der Mehrbild-Generierung in multimodalen Modellen, und kombiniert ihn mit einem MLLM-basierten Evaluierungsframework sowie dem training-freien Mechanismus Dynamic Attention Rebalancing (DAR), um die Kohärenz und Qualität bei der kontextbasierten Bildgenerierung zu verbessern.

Mingrui Wu, Hang Liu, Jiayi Ji + 2 more2026-02-24💻 cs

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Die vorgestellte Arbeit führt ein variationsbasiertes Framework für Diffusionsmodelle mit anisotropen Rauschplänen ein, das durch die gemeinsame Optimierung eines Score-Netzwerks und einer matrixwertigen Pfadparameterisierung sowie einen effizienten Heun-basierten ODE-Löser eine konsistente Verbesserung gegenüber dem Baseline-EDM-Modell auf verschiedenen Datensätzen erzielt.

Pengxi Liu, Zeyu Michael Li, Xiang Cheng2026-02-24🤖 cs.LG