cs.AI papers | Gist.Science

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Het artikel introduceert OSExpert, een computer-agent die door middel van een GUI-gebaseerde diepte-zoekalgoritme en het zelfbouwen van een vaardigheidscurriculum complexe taken efficiënter en nauwkeuriger uitvoert, waardoor de prestaties met ongeveer 20% stijgen en het efficiëntieverschil met mensen met 80% wordt verkleind.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

Emergence is Overrated: AGI as an Archipelago of Experts

Dit paper betoogt dat menselijke expertise voornamelijk berust op domeinspecifieke patronen in plaats van elegante compressie, en pleit daarom voor een herdefinitie van AGI als een "archipel van experts" bestaande uit geïsoleerde, gespecialiseerde modules zonder verenigende principes.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt \$OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

Het paper introduceert CMMR-VLN, een vision-and-language navigatieframework dat grote taalmodellen verrijkt met een gestructureerd multimodaal geheugen en reflectiecapaciteiten om relevante eerdere ervaringen selectief op te halen, wat leidt tot aanzienlijke prestatieverbeteringen in zowel gesimuleerde als echte navigatietaken.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Dit artikel introduceert de Drag-Aware Aerodynamic Manipulability (DAAM), een geometrisch raamwerk voor besturingsallocatie in redundante multirotors dat motor-torquegrenzen en aerodynamische weerstand expliciet meeneemt om een toestand-afhankelijke manipulabiliteit te definiëren die een optimale, schaal-invariante toewijzing van redundantie garandeert.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Dit paper introduceert ViSA, een framework dat Vision-Language Models versterkt met visueel-ruimtelijk redeneren om de beperkingen van bestaande methoden voor navigatie vanuit de lucht te overwinnen en zo de succesratio op de CityNav-benchmark met 70,3% te verbeteren.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Dit paper introduceert PIRA-Bench, een nieuwe benchmark en het bijbehorende PIRF-raamwerk, om multimodale taalmodellen te evalueren en te trainen voor proactieve GUI-agenten die gebruikersintenties kunnen voorspellen op basis van continue visuele input in plaats van alleen reageren op expliciete instructies.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

FedMomentum is een nieuw framework voor federatief fine-tunen van grote taalmodellen met LoRA dat door middel van SVD de trainingsmomentum behoudt en zo de convergentiesnelheid en nauwkeurigheid verbetert ten opzichte van bestaande methoden.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Dit paper herconceptualiseert samenwerking tussen AI en mensen door een dynamisch perspectief te introduceren dat de complexe, niet-lineaire relatie tussen uitlijning, processtructuur en uitkomstresultaten analyseert via de lenzen van taaktrajecten en gedeelde intenties.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

DyLLM is een trainingsvrij inferentiekader dat de doorvoer van Masked Diffusion Language Models tot 9,6 keer verhoogt door alleen de 'saliente' tokens te verwerken die significant bijdragen aan de denoising-stappen, terwijl de resterende tokens worden gecachet zonder de nauwkeurigheid te verstoren.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

In dit paper wordt GCGNet voorgesteld, een graf-consistente generatieve netwerkarchitectuur die door middel van variatiegeneratie, grafstructuur-afstemming en grafverfijning robuuste en nauwkeurige tijdreeksvoorspellingen met exogene variabelen mogelijk maakt door zowel temporale als kanaalcorrelaties gezamenlijk te modelleren.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Dit paper presenteert een robuust multimodaal raamwerk met veilige cross-attention en modality dropout dat de uitdagingen van de 10e ABAW-uitdaging voor expressierecognitie, zoals gedeeltelijke verduistering en ontbrekende modaliteiten, effectief aanpakt en een nauwkeurigheid van 60,79% bereikt op de Aff-Wild2-validatieset.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Dit paper introduceert CDRRM, een nieuw framework dat gebruikmaakt van een contrast-gebaseerde aanpak om interpreteerbare en betrouwbare rubrieken te genereren voor beloningsmodellen, waardoor de afhankelijkheid van dure expertannotaties wordt verminderd en de prestaties op diverse benchmarks worden verbeterd met slechts een beperkt aantal trainingsvoorbeelden.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

Dit artikel introduceert het S2S-FDD-framework, dat hoogdimensionale industriële tijdsreeksdata omzet in natuurlijke taal om met behulp van grote taalmodellen uitlegbare zero-shot foutdiagnose mogelijk te maken en zo de beperkingen van traditionele modellen te overwinnen.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R is een nieuw, doeltreffend 3D-reconstructiemodel dat de kwadratische complexiteit van bestaande methoden overwint door een dual-branch-attentiemechanisme te gebruiken dat zich richt op de meest informatieve beeldtokens, waardoor een 12,4-voudige versnelling van de inferentie wordt bereikt met slechts een minimale afname in geometrische nauwkeurigheid.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Het paper introduceert ImageEdit-R1, een multi-agent framework dat versterkt leren gebruikt om gespecialiseerde agents te coördineren voor het uitvoeren van complexe en contextbewuste beeldbewerkingen die beter presteren dan bestaande monolithische modellen.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

Deze paper introduceert In-Context Reinforcement Learning (ICRL), een schaalbaar en data-efficiënt framework dat grote taalmodellen zonder voorafgaande gesuperviseerde fijne afstemming (SFT) leert externe hulpmiddelen effectief te gebruiken door tijdens het trainingsproces geleidelijk van few-shot naar zero-shot prompting over te schakelen.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Dit paper introduceert DSH-Bench, een uitgebreid benchmark met een hiërarchische taxonomie en een nieuwe consistentiemaatstaf (SICS) om subject-gedreven tekst-naar-beeldmodellen systematisch te evalueren op basis van moeilijkheidsgraad en scenario's, waardoor beperkingen van bestaande modellen worden blootgelegd en gerichte richtingen voor toekomstige verbetering worden geboden.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

← Vorige Volgende →