Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Die Studie zeigt, dass vision-sprachliche Modelle (VLMs) in Kombination mit RGB-Videos und pixelgenauer Segmentierung effektiv zur nicht-invasiven Schätzung der horizontalen und vertikalen Handabstände für die ergonomische Risikoanalyse von Hebeaufgaben nach der RNLE eingesetzt werden können.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Die Arbeit stellt BBQ vor, ein großskaliges Text-zu-Bild-Modell, das durch das Training auf mit parametrischen Annotationen angereicherten Beschreibungen eine präzise numerische Steuerung von Objektgrenzen und Farben innerhalb eines einheitlichen strukturierten Textrahmens ermöglicht, ohne dass architektonische Änderungen oder Optimierungen zur Inferenzzeit erforderlich sind.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Diese Studie stellt eine auf DeepLabV3 und MobileNetV3 basierende KI-Methode zur semantischen Segmentierung von Streulicht in Weltraumkameras vor, die durch Vorab-Training auf öffentlichen Datensätzen generalisiert wird und speziell für den ressourcenbeschränkten Einsatz an Bord von Raumfahrzeugen sowie die Integration in die Navigationspipeline optimiert ist.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Communication-Inspired Tokenization for Structured Image Representations

Die Arbeit stellt COMiT vor, ein neuartiges Framework zur diskreten Bild-Tokenisierung, das durch einen iterativen, kommunikationsinspirierten Prozess strukturierte, objektspezifische Repräsentationen erzeugt und damit die Fähigkeit zu relationaler Schlussfolgerung und kompositioneller Generalisierung im Vergleich zu bestehenden Methoden erheblich verbessert.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

Die Studie stellt OrthoDiffusion vor, ein generalisierbares, diffusion-basiertes Fundamentmodell, das durch selbstüberwachtes Lernen auf großen ungelabelten MRT-Datensätzen robuste anatomische Merkmale erfasst und damit sowohl die Segmentierung als auch die Diagnose von Muskuloskelett-Erkrankungen an verschiedenen Gelenken mit hoher Genauigkeit und Daten-effizienz ermöglicht.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Diese Arbeit zeigt, dass die globale Intensitäts-nichtlineare (GIN) Augmentierung in einem föderierten Lernsetting, in dem einzelne Institutionen nur Daten einer einzelnen Modalität (CT oder MRT) besitzen, die Generalisierungsfähigkeit von medizinischen Bildsegmentierungsmodellen über Modalitäten hinweg erheblich verbessert und dabei die Privatsphäre wahrt.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs