OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Het artikel introduceert OSExpert, een computer-agent die door middel van een GUI-gebaseerde diepte-zoekalgoritme en het zelfbouwen van een vaardigheidscurriculum complexe taken efficiënter en nauwkeuriger uitvoert, waardoor de prestaties met ongeveer 20% stijgen en het efficiëntieverschil met mensen met 80% wordt verkleind.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt \$OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

In dit paper wordt GCGNet voorgesteld, een graf-consistente generatieve netwerkarchitectuur die door middel van variatiegeneratie, grafstructuur-afstemming en grafverfijning robuuste en nauwkeurige tijdreeksvoorspellingen met exogene variabelen mogelijk maakt door zowel temporale als kanaalcorrelaties gezamenlijk te modelleren.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Dit paper presenteert een robuust multimodaal raamwerk met veilige cross-attention en modality dropout dat de uitdagingen van de 10e ABAW-uitdaging voor expressierecognitie, zoals gedeeltelijke verduistering en ontbrekende modaliteiten, effectief aanpakt en een nauwkeurigheid van 60,79% bereikt op de Aff-Wild2-validatieset.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Dit paper introduceert CDRRM, een nieuw framework dat gebruikmaakt van een contrast-gebaseerde aanpak om interpreteerbare en betrouwbare rubrieken te genereren voor beloningsmodellen, waardoor de afhankelijkheid van dure expertannotaties wordt verminderd en de prestaties op diverse benchmarks worden verbeterd met slechts een beperkt aantal trainingsvoorbeelden.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

In-Context Reinforcement Learning for Tool Use in Large Language Models

Deze paper introduceert In-Context Reinforcement Learning (ICRL), een schaalbaar en data-efficiënt framework dat grote taalmodellen zonder voorafgaande gesuperviseerde fijne afstemming (SFT) leert externe hulpmiddelen effectief te gebruiken door tijdens het trainingsproces geleidelijk van few-shot naar zero-shot prompting over te schakelen.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Dit paper introduceert DSH-Bench, een uitgebreid benchmark met een hiërarchische taxonomie en een nieuwe consistentiemaatstaf (SICS) om subject-gedreven tekst-naar-beeldmodellen systematisch te evalueren op basis van moeilijkheidsgraad en scenario's, waardoor beperkingen van bestaande modellen worden blootgelegd en gerichte richtingen voor toekomstige verbetering worden geboden.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG