ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl is een vertrouwenbewust video-interpolatiekader dat diffusiemodellen in staat stelt om bij grote perspectiefveranderingen nieuwe weergaven te genereren met behulp van een Kalman-geïnspireerd mechanisme dat betrouwbare projecties combineert met residucorrecties voor geometrisch consistente resultaten.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

In dit paper wordt EmoSURA voorgesteld, een nieuw evaluatiekader dat complexe emotionele spraakbeschrijvingen opdeelt in atomaire eenheden die direct met het audiosignaal worden geverifieerd, waardoor het een betrouwbaardere maatstaf biedt dan traditionele methoden voor langere en gedetailleerde captions.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Dit paper introduceert BrainSTR, een raamwerk voor spatio-temporeel contrastief leren dat dynamische hersennetwerken interpreteerbaar modelleert door data-gedreven fase-indeling, aandacht voor diagnostisch kritieke momenten en een gestructureerde semantische ruimte te combineren voor een betere neuropsychiatrische diagnose.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Dit paper introduceert een Capability Coherence System dat de structurele equivalentie tussen geheugenconsistentiemodellen en autorisatie-intrekking benut om via een Release Consistency-strategie de schaal van onbevoegde API-aanroepen tijdens revocatie onafhankelijk van agent-snelheid te beperken, wat resulteert in een tot 184-voudige reductie ten opzichte van traditionele TTL-gebaseerde methoden.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Dit paper introduceert InternVL-U, een lichtgewicht 4B-parameter unificerend multimodaal model dat door middel van een decoupled architectuur en een op redenering gebaseerde data-pipeline superieure prestaties bereikt in begrijpen, redeneren, genereren en bewerken, terwijl het tegelijkertijd de efficiëntie en schaalbaarheid van grotere modellen overtreft.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Het paper introduceert DISPLAY, een raamwerk voor het genereren van controleerbare en fysiek consistente video's van mens-objectinteracties dat gebruikmaakt van een lichtgewicht, spaarzame bewegingsgids (alleen polskoordinaten en een object-boundingbox), een object-gerichte attentiemechanisme en een multi-task trainingsstrategie om de beperkingen van bestaande methoden te overwinnen.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Deze paper introduceert CourtSI, het eerste grote dataset en benchmark voor ruimtelijke intelligentie in sporten, waarmee de beperkingen van bestaande vision-language modellen worden blootgelegd en een aanzienlijke prestatieverbetering wordt bereikt door fine-tuning.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Dit artikel introduceert twee praktische algoritmen die hosts in enterprise-netwerken groeperen op basis van connectiepatronen om de logische structuur bloot te leggen en netwerkbeheer te vereenvoudigen, waarbij de resultaten aantonen dat de gegenereerde groepen aanzienlijk kleiner zijn dan het aantal hosts en de netwerklogica nauwkeurig weerspiegelen.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Dit paper introduceert WikiCLIP, een efficiënt contrastief raamwerk dat open-domein visuele entiteitsherkenning aanzienlijk verbetert door grote taalmodel-embeddings te combineren met een visueel geleide kennisadapter en een mechanisme voor het synthetiseren van harde negatieven, waardoor het prestaties op benchmarks zoals OVEN significant verhoogt en de inferentielatentie in vergelijking met generatieve modellen met bijna 100 keer verlaagt.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs