Counting Through Occlusion: Framework for Open World Amodal Counting

Dit paper introduceert CountOCC, een nieuw framework voor amodale objecttelling dat door middel van hiërarchische multimodale gidsing en een visuele equivalentiedoelstelling de door verduistering veroorzaakte fouten in bestaande methoden oplost en zo state-of-the-art prestaties bereikt op nieuwe, verduisterde datasets.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Het artikel introduceert Video2Layout, een framework dat met behulp van continue objectgrenskoördinaten in plaats van rasterkaarten een metrisch onderbouwde cognitieve kaart reconstrueert uit video's, waardoor de ruimtelijke redeneerprestaties van multimodale grote taalmodellen significant worden verbeterd.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Deze paper introduceert UnfoldLDM, een diep-ontvouwing-gebaseerd raamwerk dat latent diffusion-priors integreert om blind beeldherstel te verbeteren door degradatie-afhankelijkheid en oververvaging aan te pakken via een multi-granulariteitsmodule en een degradatie-resistente transformer.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Dit paper introduceert Yo'City, een nieuw agentisch kader dat gebruikmaakt van grote modellen voor top-down planning en een iteratief verfijningsproces om gepersonaliseerde, onbeperkt uitbreidbare en realistische 3D-stadsscènes te genereren die de huidige state-of-the-art-methoden overtreffen.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

DOPD is een dynamisch systeem voor het uitvoeren van LLM-inferentie dat de verhouding tussen voorafvul- en decoderingsinstanties aanpast op basis van real-time belasting om onbalans in heterogene werklasten op te lossen en zo de goodput en SLO-ervaring aanzienlijk verbetert ten opzichte van bestaande oplossingen.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Dit artikel introduceert een raamwerk voor voorschrijvend onderhoud dat een causaal fundamenteel model integreert om als 'wat-als'-simulator te fungeren, waardoor de oorzaken van productiefouten niet alleen worden voorspeld maar ook begrepen en geoptimaliseerd kunnen worden via gerichte interventies om de algehele apparaateffectiviteit te verhogen.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent is een nieuwe GUI-agent die met de History Context-aware Policy Optimization (HCPO) methode, bestaande uit Dynamische Context Sampling en Anker-gestuurde Historiecompressie, historische context efficiënter gebruikt dan bestaande modellen, wat leidt tot betere prestaties en aanzienlijke reducties in rekenkosten.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

In dit paper wordt MAViD voorgesteld, een innovatief multimodaal raamwerk met een Conductor-Creator-architectuur dat geïntegreerde audio-visual dialogue-understanding en -generatie mogelijk maakt door autoregressieve en diffusiemodellen te combineren voor het creëren van levendige, contextueel samenhangende en langdurige interacties.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs