TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Deze paper introduceert TemporalDoRA, een parameter-efficiënte fijnafstemmingsmethode die tijdsbewuste Multi-Head Attention in het low-rank bottleneck van een visuele encoder integreert om de robuustheid en prestaties van chirurgische video-VQA-systemen, getest op het nieuwe REAL-Colon-VQA-dataset, aanzienlijk te verbeteren.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Dit artikel introduceert TriFusion-SR, een golflet-gestuurd conditioneel diffusieframework dat medische beeldfusie en superresolutie voor drie modaliteiten gelijktijdig uitvoert door frequentiebewuste interactie en adaptieve ruimtelijk-frequentie fusie, wat leidt tot significante verbeteringen in beeldkwaliteit en diagnoseondersteuning.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

FetalAgents is het eerste multi-agent systeem dat door middel van een lichtgewicht coördinatieframework gespecialiseerde visuele experts dynamisch coördineert om een robuuste, end-to-end oplossing te bieden voor analyse, meting en rapportage van foetale echografiebeelden en -video's.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

M2M^2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Dit paper introduceert M2M^2-Occ, een robuust framework voor 3D semantische bezettingsvoorspelling dat onvolledige meercamera-invoer verwerkt door het herstel van ontbrekende weergaven en het gebruik van een geheugenmodule voor semantische consistentie, wat leidt tot aanzienlijk betere prestaties bij camera-uitval zonder in te leveren op volledige weergaven.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Deze paper introduceert ENIGMA-360, een nieuw dataset met gesynchroniseerde egocentrische en exocentrische video's uit een echte industriële omgeving, die is gelabeld voor het bestuderen van menselijk gedrag en het evalueren van bestaande modellen voor taken zoals tijdelijke actiesegmentatie en mens-object-interactie.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Deze paper introduceert DCPGN, een nieuwe methode voor testtijd-adaptatie die via multi-label prototypen en dual-clue consistentie (visueel en tekstueel) modellen getraind op egocentrische beelden aanpast aan exocentrische beelden voor actie-anticipatie zonder extra trainingsdata.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs