Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Diese Studie demonstriert, dass allein durch die Analyse von 3D-Kinematikdaten aus Fernsehbildern eine Vorhersagegenauigkeit von 80,4 % für acht verschiedene Baseball-Würfe erreicht werden kann, wobei die Oberkörpermechanik den größten Beitrag leistet und grip-basierte Varianten wie Four-Seam und Two-Seam Fastballs kinematisch nicht unterscheidbar sind.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Diese Arbeit stellt ein neuartiges zweistufiges Framework für die automatische Generierung von CT-Berichten vor, das durch strukturorientierte Bild-Text-Kontrastierung und dynamische Negativ-Queues präzise semantische Korrespondenzen zwischen anatomischen Strukturen und Befundtexten erlernt, um so den aktuellen Stand der Technik in klinischer Effizienz zu übertreffen.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Der vorgestellte FedMEPD-Rahmenwerk adressiert die Herausforderungen der intermodalen Heterogenität und der Personalisierung im föderierten Lernen für die multimodale Hirntumorsegmentierung durch den Einsatz von modality-spezifischen Encodern, teilweise personalisierten Fusion-Decodern und einem Mechanismus zur Kompensation fehlender Modalitäten mittels Cross-Attention.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Das Paper stellt FedAFD vor, ein einheitliches Framework für multimodales Federated Learning, das durch eine bi-level adversarielle Ausrichtungsstrategie, einen granularitätsbewussten Fusionsmodul und eine similarity-gesteuerte Ensemble-Destillation die Herausforderungen heterogener Datenmodalitäten, Aufgabenunterschiede und Modellheterogenität adressiert, um sowohl auf Client- als auch auf Serverseite eine überlegene Leistung und Privatsphäre zu gewährleisten.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Die Arbeit stellt einen einfachen Add-on-Ansatz namens Locality-Attending Vision Transformer (LocAtViT) vor, der durch die Modulation der Selbstattention mit einem lernbaren Gauß-Kernel und die Verfeinerung der Patch-Repräsentationen die Segmentierungsleistung von Vision-Transformern erheblich verbessert, ohne dabei deren Klassifikationsfähigkeiten zu beeinträchtigen oder das Trainingsregime zu ändern.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Diese Arbeit schlägt eine Methode zur Optimierung viewpoint-konsistenter adversarialer Texturen für 3D-Objekte vor, die durch differentiable Rendering, Expectation over Transformation und eine Coarse-to-Fine-Strategie die Anfälligkeit visuomotorischer Robotikrichtlinien gegenüber Perspektivverzerrungen und dynamischen Kamerabewegungen aufdeckt.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Diese Arbeit stellt einen maßgeschneiderten Overhead-LiDAR-Datensatz für die Personenerkennung und -verfolgung in industriellen Innenräumen vor, adaptiert bestehende 3D-Detektoren für diese spezielle Perspektive und validiert deren Echtzeitfähigkeit durch eine umfassende Evaluierung, um die Lücke zwischen herkömmlichen Fahrzeugsensordaten und Überkopf-Szenarien zu schließen.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Location-Aware Pretraining for Medical Difference Visual Question Answering

Die Studie stellt einen neuartigen Vorschulungsansatz vor, der durch lokationsbewusste Aufgaben wie automatische Referenzausdrücke und verankerte Bildunterschriften die Fähigkeit von Vision-Encodern verbessert, subtile visuelle Unterschiede in medizinischen Bildern zu erkennen, und damit den State-of-the-Art bei der differenziellen visuellen Fragebeantwortung für Röntgenbilder der Brust erreicht.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Die Arbeit stellt BiEvLight vor, ein hierarchisches Framework zur Low-Light-Bildverbesserung, das durch eine bi-level-Optimierung die task-spezifische Rauschunterdrückung von Event-Kameradaten mit der Bildverbesserung koppelt, um die durch Rauschüberlagerung verursachten Leistungsengpässe zu überwinden und den State-of-the-Art signifikant zu übertreffen.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Das Paper stellt VideoHV-Agent vor, ein Multi-Agenten-Framework für das Verständnis langer Videos, das durch einen strukturierten Hypothesen-Verifikationsprozess, bei dem ein „Denker" Antworten in testbare Hypothesen umwandelt und ein „Prüfer" diese mit detaillierten Videoinhalten verifiziert, die Genauigkeit, Interpretierbarkeit und Recheneffizienz im Vergleich zu bestehenden Methoden verbessert.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs