InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Dit paper introduceert InternVL-U, een lichtgewicht 4B-parameter unificerend multimodaal model dat door middel van een decoupled architectuur en een op redenering gebaseerde data-pipeline superieure prestaties bereikt in begrijpen, redeneren, genereren en bewerken, terwijl het tegelijkertijd de efficiëntie en schaalbaarheid van grotere modellen overtreft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Het paper introduceert DISPLAY, een raamwerk voor het genereren van controleerbare en fysiek consistente video's van mens-objectinteracties dat gebruikmaakt van een lichtgewicht, spaarzame bewegingsgids (alleen polskoordinaten en een object-boundingbox), een object-gerichte attentiemechanisme en een multi-task trainingsstrategie om de beperkingen van bestaande methoden te overwinnen.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Deze paper introduceert CourtSI, het eerste grote dataset en benchmark voor ruimtelijke intelligentie in sporten, waarmee de beperkingen van bestaande vision-language modellen worden blootgelegd en een aanzienlijke prestatieverbetering wordt bereikt door fine-tuning.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Dit paper introduceert WikiCLIP, een efficiënt contrastief raamwerk dat open-domein visuele entiteitsherkenning aanzienlijk verbetert door grote taalmodel-embeddings te combineren met een visueel geleide kennisadapter en een mechanisme voor het synthetiseren van harde negatieven, waardoor het prestaties op benchmarks zoals OVEN significant verhoogt en de inferentielatentie in vergelijking met generatieve modellen met bijna 100 keer verlaagt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Dit paper introduceert ACADiff, een adaptief latent diffusion-framework dat ontbrekende multimodale hersenbeelden synthetiseert door klinische metadata en beschikbare beeldvorming te integreren, waardoor de diagnose van de ziekte van Alzheimer ook bij extreme data-ontbrekingen robuust blijft.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Dit paper introduceert Bag-of-Words Superposition (BOWS) om aan te tonen dat in realistische scenario's met gecorreleerde features, superpositie constructieve interferentie kan genereren die semantische clusters en cyclische structuren vormt, in plaats van dat interferentie uitsluitend als ruis moet worden gefilterd zoals in het standaardbeeld van superpositie wordt aangenomen.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

Dit paper introduceert differentieerbare microscopie (μ\partial\mu), een datagedreven, top-down ontwerpmethode die de creatie van geoptimaliseerde optische systemen voor faseherstel mogelijk maakt en experimenteel is gevalideerd.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics