When to Lock Attention: Training-Free KV Control in Video Diffusion

Het paper introduceert KV-Lock, een trainingsvrije methode voor video-editing die dynamisch de achtergrondvastlegging en de conditionele geleiding aanpast op basis van hallucinatie-detectie om achtergrondconsistentie en voorgrondkwaliteit te optimaliseren in DiT-gebaseerde videodiffusiemodellen.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind is een fysica-informeerd, differentieerbaar framework dat windgedreven objectdynamica uit video's reconstrueert en simuleert door windkrachten en objectbewegingen gezamenlijk te optimaliseren via differentieerbare rendering, de Material Point Method en de Lattice Boltzmann Method.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Deze paper introduceert TemporalDoRA, een parameter-efficiënte fijnafstemmingsmethode die tijdsbewuste Multi-Head Attention in het low-rank bottleneck van een visuele encoder integreert om de robuustheid en prestaties van chirurgische video-VQA-systemen, getest op het nieuwe REAL-Colon-VQA-dataset, aanzienlijk te verbeteren.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Dit artikel introduceert TriFusion-SR, een golflet-gestuurd conditioneel diffusieframework dat medische beeldfusie en superresolutie voor drie modaliteiten gelijktijdig uitvoert door frequentiebewuste interactie en adaptieve ruimtelijk-frequentie fusie, wat leidt tot significante verbeteringen in beeldkwaliteit en diagnoseondersteuning.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

FetalAgents is het eerste multi-agent systeem dat door middel van een lichtgewicht coördinatieframework gespecialiseerde visuele experts dynamisch coördineert om een robuuste, end-to-end oplossing te bieden voor analyse, meting en rapportage van foetale echografiebeelden en -video's.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

M2M^2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Dit paper introduceert M2M^2-Occ, een robuust framework voor 3D semantische bezettingsvoorspelling dat onvolledige meercamera-invoer verwerkt door het herstel van ontbrekende weergaven en het gebruik van een geheugenmodule voor semantische consistentie, wat leidt tot aanzienlijk betere prestaties bij camera-uitval zonder in te leveren op volledige weergaven.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Deze paper introduceert ENIGMA-360, een nieuw dataset met gesynchroniseerde egocentrische en exocentrische video's uit een echte industriële omgeving, die is gelabeld voor het bestuderen van menselijk gedrag en het evalueren van bestaande modellen voor taken zoals tijdelijke actiesegmentatie en mens-object-interactie.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs