Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Dit artikel introduceert een raamwerk voor grote audio-taalmodellen dat dubbelzinnige spraakemotieherkenning behandelt als een distributief redeneerprobleem door een ambiguiteitsbewust doel en gestructureerde chain-of-thought-supervisie te combineren, wat leidt tot consistente prestatieverbeteringen op benchmarkdatasets.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Dit onderzoek toont aan dat state-of-the-art deep learning-modellen, waaronder vision transformers en foundation modellen, in combinatie met ultra-widefield imaging en frequentiedomeinrepresentaties, zeer effectief zijn voor het beoordelen van beeldkwaliteit, het detecteren van referabele diabetische retinopathie en diabetisch maculair oedeem, waarbij feature-level fusion en Grad-CAM-analyse de robuustheid en uitlegbaarheid verder verbeteren.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Dit paper introduceert een fysica-gestuurde voorverwerkingsmethode voor millimetergolf-gebaseerde menselijke pose-schatting die, door expliciete fysieke priors te gebruiken in plaats van data-gedreven modules, de modelgrootte met 55,7-88,9% verkleint en real-time implementatie op Raspberry Pi mogelijk maakt zonder in te leveren op nauwkeurigheid.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu Guan2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Dit paper introduceert DynamicVGGT, een uniek feed-forward framework dat VGGT uitbreidt tot dynamische 4D-scèneherconstructie voor autonoom rijden door het gezamenlijk voorspellen van puntkaarten en het gebruik van motion-aware temporal attention en dynamische 3D Gaussian Splatting voor nauwkeurige bewegingsmodellering.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Het paper introduceert Seed2Scale, een zelfevoluerend data-engine dat de beperkingen van bestaande methoden voor Embodied AI overwint door een synergie tussen een kleine verzamelmodel, een groot bewerkingsmodel en multimodale evaluatie, waardoor het met slechts vier seed-demonstraties een robuuste prestatieverbetering van 131,2% bereikt.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Dit paper introduceert FinToolBench, het eerste uitvoerbare benchmark-omgeving voor het evalueren van LLM-agenten in de financiële sector, die 760 realistische tools combineert met een nieuw evaluatiekader en de FATR-basismethode om betrouwbaarheid en naleving te waarborgen.

Jiaxuan Lu, Kong Wang, Yemin Wang, Qingmei Tang, Hongwei Zeng, Xiang Chen, Jiahao Pi, Shujian Deng, Lingzhi Chen, Yi Fu, Kehua Yang, Xiao Sun2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Deze paper introduceert OSCAR, een labelvrije methode die op basis van akoestische neurale impliciete representaties onvolledige ultrasone beelden van de wervelkolom omzet in volledige 3D-anatomische modellen om zo de uitdagingen van akoestische schaduwvorming tijdens minimaal invasieve ingrepen te overwinnen.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Dit paper introduceert BladeChain, een op blockchain gebaseerd traceerbaarheidsysteem dat de integriteit en auditbaarheid van AI-gedreven inspecties van vliegtuigturbineschijven door het hele levenscyclusproces garandeert via een onveranderlijk grootboek, gedecentraliseerde goedkeuring en cryptografische koppeling van inspectiegegevens.

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Dit artikel biedt een systematisch overzicht van Multimodaal Wiskundig Redeneren (MMR) door de huidige uitdagingen te analyseren en een unificerend paradigma te presenteren dat zich richt op gestructureerde perceptie, expliciete uitlijning en verifieerbaar redeneren, terwijl het ook openstaande uitdagingen en toekomstige onderzoeksrichtingen schetst.

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs