On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Die Arbeit stellt einen trainingsfreien Ansatz zur mehrstufigen Theoremvorhersage vor, der durch die Nutzung von Theorem-Vorranggraphen als nicht-parametrische strukturelle Priors das Problem des „Structural Drift" bei In-Context-Learning adressiert und auf dem FormalGeo7k-Benchmark eine Genauigkeit von 89,29 % erreicht, die mit überwachtem State-of-the-Art vergleichbar ist.

Junbo Zhao, Ting Zhang, Can Li + 3 more2026-03-06🤖 cs.AI

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Diese Studie demonstriert, dass allein durch die Analyse von 3D-Kinematikdaten aus Fernsehbildern eine Vorhersagegenauigkeit von 80,4 % für acht verschiedene Baseball-Würfe erreicht werden kann, wobei die Oberkörpermechanik den größten Beitrag leistet und grip-basierte Varianten wie Four-Seam und Two-Seam Fastballs kinematisch nicht unterscheidbar sind.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Diese Arbeit stellt ein neuartiges zweistufiges Framework für die automatische Generierung von CT-Berichten vor, das durch strukturorientierte Bild-Text-Kontrastierung und dynamische Negativ-Queues präzise semantische Korrespondenzen zwischen anatomischen Strukturen und Befundtexten erlernt, um so den aktuellen Stand der Technik in klinischer Effizienz zu übertreffen.

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Der vorgestellte FedMEPD-Rahmenwerk adressiert die Herausforderungen der intermodalen Heterogenität und der Personalisierung im föderierten Lernen für die multimodale Hirntumorsegmentierung durch den Einsatz von modality-spezifischen Encodern, teilweise personalisierten Fusion-Decodern und einem Mechanismus zur Kompensation fehlender Modalitäten mittels Cross-Attention.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Das Paper stellt FedAFD vor, ein einheitliches Framework für multimodales Federated Learning, das durch eine bi-level adversarielle Ausrichtungsstrategie, einen granularitätsbewussten Fusionsmodul und eine similarity-gesteuerte Ensemble-Destillation die Herausforderungen heterogener Datenmodalitäten, Aufgabenunterschiede und Modellheterogenität adressiert, um sowohl auf Client- als auch auf Serverseite eine überlegene Leistung und Privatsphäre zu gewährleisten.

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

Die Arbeit stellt einen einfachen Add-on-Ansatz namens Locality-Attending Vision Transformer (LocAtViT) vor, der durch die Modulation der Selbstattention mit einem lernbaren Gauß-Kernel und die Verfeinerung der Patch-Repräsentationen die Segmentierungsleistung von Vision-Transformern erheblich verbessert, ohne dabei deren Klassifikationsfähigkeiten zu beeinträchtigen oder das Trainingsregime zu ändern.

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Diese Arbeit schlägt eine Methode zur Optimierung viewpoint-konsistenter adversarialer Texturen für 3D-Objekte vor, die durch differentiable Rendering, Expectation over Transformation und eine Coarse-to-Fine-Strategie die Anfälligkeit visuomotorischer Robotikrichtlinien gegenüber Perspektivverzerrungen und dynamischen Kamerabewegungen aufdeckt.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Diese Arbeit stellt einen maßgeschneiderten Overhead-LiDAR-Datensatz für die Personenerkennung und -verfolgung in industriellen Innenräumen vor, adaptiert bestehende 3D-Detektoren für diese spezielle Perspektive und validiert deren Echtzeitfähigkeit durch eine umfassende Evaluierung, um die Lücke zwischen herkömmlichen Fahrzeugsensordaten und Überkopf-Szenarien zu schließen.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Location-Aware Pretraining for Medical Difference Visual Question Answering

Die Studie stellt einen neuartigen Vorschulungsansatz vor, der durch lokationsbewusste Aufgaben wie automatische Referenzausdrücke und verankerte Bildunterschriften die Fähigkeit von Vision-Encodern verbessert, subtile visuelle Unterschiede in medizinischen Bildern zu erkennen, und damit den State-of-the-Art bei der differenziellen visuellen Fragebeantwortung für Röntgenbilder der Brust erreicht.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI