The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Diese Studie stellt den Garbage Dataset (GD) vor, eine öffentlich zugängliche Bildsammlung mit 12.259 gelabelten Bildern in zehn Abfallkategorien, die als Benchmark für die automatische Mülltrennung dient und durch den Einsatz moderner Deep-Learning-Modelle wie EfficientNetV2S eine hohe Klassifizierungsgenauigkeit bei gleichzeitiger Berücksichtigung von Umweltauswirkungen demonstriert.

Suman Kunwar2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Die Arbeit stellt MedXIAOHE vor, ein medizinisches Vision-Language-Modell, das durch einen entitätsbasierten kontinuierlichen Vortrainingsansatz, verstärktes Lernen und agentenbasiertes Training mit Werkzeugen sowie evidenzbasiertes Schließen state-of-the-art-Leistung in der medizinischen Diagnostik und Berichterstattung erzielt und dabei die Zuverlässigkeit und Nachvollziehbarkeit klinischer Anwendungen verbessert.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

Die Arbeit stellt TraqPoint vor, ein neuartiges Reinforcement-Learning-Framework, das die Keypoint-Detektion als sequenzielles Entscheidungsproblem neu definiert und durch einen track-bewussten Belohnungsmechanismus die Langzeitverfolgbarkeit von Keypoints in Bildsequenzen direkt optimiert, wodurch sie bestehende State-of-the-Art-Methoden in Aufgaben wie der relativen Pose-Schätzung und 3D-Rekonstruktion übertrifft.

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Die Studie stellt Lilium vor, eine automatisierte evolutionäre Methode, die durch die Modellierung von Weichgewebevariabilität und die Optimierung mittels Differential Evolution die Genauigkeit und Robustheit der computergestützten Schädel-Gesicht-Überlagerung zur forensischen Identifizierung verbessert.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

Die Arbeit stellt GLIDE-Reg vor, ein deformierbares Registrierungsverfahren, das durch die gemeinsame Optimierung von globalen semantischen Merkmalen aus Foundation-Modellen und lokalen handgefertigten Deskriptoren die Robustheit und Genauigkeit bei medizinischen Bildaufnahmen verbessert und dabei den aktuellen State-of-the-Art-Methoden überlegen ist.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

Das Paper stellt ShiftLUT vor, ein effizientes Framework für die Bildrestauration, das durch einen lernbaren räumlichen Verschiebungsmodul, eine asymmetrische Dual-Branch-Architektur und eine komprimierte Look-Up-Tabelle eine signifikant größere rezeptive Feldgröße und bessere Bildqualität bei geringem Speicher- und Rechenaufwand im Vergleich zu bisherigen Methoden erreicht.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Die Autoren stellen das Multimodal Weight Predictor (MWP)-Framework und den zugehörigen Datensatz Waste-Weight-10K vor, die durch die Fusion von RGB-Bildern und physikalischen Metadaten eine präzise Gewichtsabschätzung für kommerzielle und industrielle Abfälle ermöglichen und dabei sowohl hohe Genauigkeit als auch interpretierbare Vorhersagen liefern.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs