Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Deze studie presenteert een interpreteerbaar model dat 80,4% nauwkeurigheid bereikt bij het voorspellen van acht verschillende worptypes in honkbal op basis van monokulaire 3D-lichaamshouding, waarbij bovenlichaamsmechaniek en polspositie als belangrijkste voorspellers worden geïdentificeerd en een empirisch plafond wordt vastgesteld voor worpen die uitsluitend op grip verschillen.

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Dit paper introduceert FedMEPD, een federatief leerframework dat modality-specifieke encoders en gedeeltelijk gepersonaliseerde fusie-decoders combineert om intermodale heterogeniteit en lokale personalisatie te adresseren bij multimodale hersentumorsegmentatie, waarbij clients met onvolledige modaliteiten hun representaties calibreren via cross-attention naar globale ankers.

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

Dit artikel presenteert een nieuw, interpreteerbaar, op prototypes gebaseerd zwak-toezichtend framework voor het automatisch graden van prostaatkanker uit histopathologische beelden, dat door het nabootsen van het pathologisch vergelijkingsproces en het gebruik van dynamische aandachtmechanismen zowel hoge prestaties als vertrouwen biedt voor klinische toepassingen.

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

Location-Aware Pretraining for Medical Difference Visual Question Answering

Deze paper introduceert een locatiebewust pretrainingsframework met specifieke taken zoals automatisch verwijzende expressies en grounded captioning, dat een verbeterde visuele encoder leert om subtiele verschillen in medische beelden te detecteren en zo state-of-the-art prestaties bereikt voor differentiële visuele vraag-antwoordtaken op thoraxröntgenfoto's.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

VisionPangu is een compact multimodaal model van 1,7 miljard parameters dat, door gebruik te maken van een InternVL-visionencoder, de OpenPangu-taalbackbone en gedetailleerde menselijke beschrijvingen uit het DOCCI-dataset, concurrerende prestaties levert bij het genereren van gestructureerde en rijke afbeeldingsbeschrijvingen zonder afhankelijk te zijn van agressieve schaalvergroting.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL