Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Diese Studie präsentiert eine groß angelegte systemische Analyse, die sieben Video-Foundation-Modelle zur Fernscreening von Parkinson-Erkrankungen auf einem Datensatz von 1.888 Teilnehmern bewertet und zeigt, dass die Leistung stark von der gewählten Architektur und der klinischen Aufgabe abhängt, wobei zwar eine hohe Spezifität, aber eine noch zu verbessernde Sensitivität erreicht wird.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

Die Autoren stellen Hadamard-spektrale Codes vor, eine kompakte latente Darstellung, die durch einen lernbasierten Kodierer und Dekodierer eine effiziente spektrale Wiedergabe ermöglicht, indem sie die spektrale Linearität exakt erhält und die Multiplikation approximiert, wodurch hochwertige spektrale Ergebnisse mit nur wenigen RGB-Rendering-Pässen erzielt und auch RGB-Assets in den spektralen Workflow integriert werden können.

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

Die vorgestellte Arbeit entwickelt ein Framework zur automatisierten Entwirrung von Hautfarben in Dermatologiebildern, das durch gezielte Dekolorisierung und geometrische Nachbearbeitung realistische Farbmanipulationen ermöglicht, um so durch datenbasierte Augmentierung und Normalisierung die Diagnoseleistung über verschiedene Hauttöne hinweg zu verbessern und gerechtere medizinische Diagnosen zu fördern.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Das Paper stellt FUSAR-GPT vor, ein speziell für SAR-Bilder entwickeltes visuelles Sprachmodell, das durch die Integration eines geospatiale Basismodells, die Einbettung von räumlich-zeitlichen Merkmalen und eine zweistufige Entkopplungsstrategie die Interpretationsfähigkeiten von SAR-Daten signifikant verbessert und damit bestehende Modelle um mehr als 12 % übertrifft.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

Die Arbeit stellt DICArt vor, ein neuartiges Framework zur Schätzung der Pose von artikulierten Objekten, das durch die Formulierung als bedingter diskreter Diffusionsprozess, einen flexiblen Flussentscheider und eine hierarchische kinematische Kopplung die Herausforderungen bestehender kontinuierlicher Methoden überwindet und eine robuste, kategorienübergreifende 6D-Pose-Schätzung ermöglicht.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Die Arbeit stellt TextPecker vor, eine RL-basierte Strategie, die durch die Quantifizierung struktureller Anomalien in Texten die visuelle Textdarstellung in Bildgenerierungsmodellen verbessert, indem sie das Versagen bestehender Modelle bei der Erkennung solcher Fehler überwindet und so neue State-of-the-Art-Ergebnisse für die strukturelle Treue und semantische Ausrichtung erzielt.

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs