DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

DOPD is een dynamisch systeem voor het uitvoeren van LLM-inferentie dat de verhouding tussen voorafvul- en decoderingsinstanties aanpast op basis van real-time belasting om onbalans in heterogene werklasten op te lossen en zo de goodput en SLO-ervaring aanzienlijk verbetert ten opzichte van bestaande oplossingen.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Dit artikel introduceert een raamwerk voor voorschrijvend onderhoud dat een causaal fundamenteel model integreert om als 'wat-als'-simulator te fungeren, waardoor de oorzaken van productiefouten niet alleen worden voorspeld maar ook begrepen en geoptimaliseerd kunnen worden via gerichte interventies om de algehele apparaateffectiviteit te verhogen.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent is een nieuwe GUI-agent die met de History Context-aware Policy Optimization (HCPO) methode, bestaande uit Dynamische Context Sampling en Anker-gestuurde Historiecompressie, historische context efficiënter gebruikt dan bestaande modellen, wat leidt tot betere prestaties en aanzienlijke reducties in rekenkosten.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

In dit paper wordt MAViD voorgesteld, een innovatief multimodaal raamwerk met een Conductor-Creator-architectuur dat geïntegreerde audio-visual dialogue-understanding en -generatie mogelijk maakt door autoregressieve en diffusiemodellen te combineren voor het creëren van levendige, contextueel samenhangende en langdurige interacties.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Deze paper introduceert het concept van een "informatiehorizon" in Vision Large Language Models, waarbij visuele tokens in diepere lagen hun relevantie verliezen en willekeurige pruning in deze lagen de inferentie-efficiëntie aanzienlijk verbetert zonder de prestaties te schaden.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Deze studie toont aan dat de discrepantie tussen objectieve metingen en subjectieve waarneming van stedelijke groenruimtes wereldwijd vergelijkbaar is en voornamelijk wordt beïnvloed door de woonlocatie en visuele factoren, terwijl demografische kenmerken en persoonlijkheid slechts een beperkte rol spelen.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Dit paper introduceert DrivingGen, het eerste uitgebreide benchmarkkader voor generatieve wereldmodellen in autonoom rijden, dat een diverse dataset en nieuwe meetmaten combineert om de prestaties van bestaande modellen op het gebied van visuele realisme, trajectplausibiliteit, temporele coherentie en controleerbaarheid te evalueren.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs