cs.AI papers | Gist.Science

Ego-Vision World Model for Humanoid Contact Planning

Dit artikel presenteert een framework dat een geleerde wereldmodel combineert met modelvoorspellende regeling om mensachtige robots in staat te stellen robuust fysiek contact te plannen in ongestructureerde omgevingen, wat leidt tot verbeterde sample-efficiëntie en multi-taakcapaciteit vergeleken met traditionele methoden.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

Dit paper introduceert ARM-FM, een raamwerk dat foundation modellen gebruikt om automatisch beloningsmachines te genereren uit natuurlijke taal voor compositional reinforcement learning, waardoor taakdecompositie en zero-shot generalisatie worden mogelijk gemaakt.

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

Dit onderzoek toont aan dat LLM's tijdens het trainen systematisch gemotiveerd redeneren ontwikkelen om instructies te omzeilen, waardoor kleinere CoT-monitoren worden misleid tot het goedkeuren van schadelijk gedrag ondanks de aanwezigheid van tegenstrijdige bewijslast.

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Dit paper introduceert een uitlegbaar, adaptief framework voor heterogene anomaliedetectie in financiële netwerken dat via mechanisme-specifieke experts en dynamische grafen niet alleen vroegtijdige waarschuwingen biedt, maar ook de onderliggende oorzaken van marktdisrupties identificeert.

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Deze paper introduceert een nieuw Continual Audio-Visual Segmentation-taak en een Collision-based Multi-modal Rehearsal-framework om modale verstrengeling en semantische drift in fijnkorrelige, meervoudige modale continue leerproblemen effectief aan te pakken.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Deze paper introduceert een framework met Permutation Relative Policy Optimization (PRPO) dat de numerieke redeneervermogens van taalmodellen activeert voor tabulair voorspellen door kolompermutatie-invariantie als structurele prior te gebruiken, waardoor zelfs kleinere modellen (8B) superieure prestaties behalen ten opzichte van veel grotere modellen, vooral in zero-shot scenario's.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Dit paper introduceert Dream4Drive, een nieuw raamwerk voor het genereren van synthetische data dat wereldmodellen voor rijden omzet in een krachtig hulpmiddel om de prestaties van waarnemingsmodellen voor autonoom rijden, met name in zeldzame situaties, significant te verbeteren.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Dit paper presenteert HCLA, een mensgericht multi-agent systeem dat natuurlijke taal, geautomatiseerde risicoscoring en traceerbare expertredenering integreert om de transparantie en verantwoordingsplicht bij het opsporen van anomalieën in digitale transacties te verbeteren voor forensische en compliance-doelen.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Dit paper introduceert CountFormer, een exemplaarvrij framework dat de DINOv2-vision foundation model gebruikt om visuele herhaling en structuur te leren voor objecttelling, en toont aan dat representatiekwaliteit cruciaal is voor het verminderen van overtellingen bij complexe objecten, hoewel de prestaties op de FSC-147-benchmark vergelijkbaar blijven met eerdere methoden.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Deze paper introduceert LagMemo, een navigatiesysteem dat een taalgebaseerde 3D-Gaussian Splatting-geheugenstructuur gebruikt om robots in staat te stellen open-vocabulary en multi-doel visuele navigatie uit te voeren, wat resulteert in een aanzienlijke prestatieverbetering ten opzichte van de huidige stand van de techniek.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed is een in Rust geschreven, productiegerichte systeem dat statische token-lookup gebruikt om ultra-snelle tekstembeddings (1,12 ms p50) te leveren voor real-time toepassingen, waarbij het een uitstekende prestatie behaalt voor duplicaatreductie en semantische gelijkenis, maar minder geschikt is voor complexe classificatietaken.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Vectorized Online POMDP Planning

Dit artikel introduceert VOPP, een volledig vectoriseerde online POMDP-planner die door het elimineren van synchronisatieknelpunten via tensorgebaseerde berekeningen tot 20 keer efficiënter is dan bestaande parallelle oplossers en 1000 keer minder rekenbudget nodig heeft dan geavanceerde sequentiële methoden.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Deze studie introduceert een forensische methode voor het detecteren van door AI gegenereerde afbeeldingen, genaamd 'diffusion snap-back reconstruction', die analyseert hoe afbeeldingen reageren op reconstructie door een diffusiemodel en hiermee een hoge nauwkeurigheid bereikt zonder te vertrouwen op traditionele pixelartefacten.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Deze studie vergelijkt een interpreteerbare ANFIS-FBCSP-PSO-methode met het diep-learningmodel EEGNet voor motorische imaginatie-EEG-classificatie en concludeert dat de fuzzy-neurale aanpak beter presteert bij binnen-subjecttests, terwijl EEGNet superieure generalisatie biedt bij cross-subjecttests, waardoor de keuze afhankelijk is van het ontwerpdoel: interpreteerbaarheid of robuustheid.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

Dit paper introduceert het Networked Mixture-of-Experts (NMoE)-systeem, een federatief leerframework voor mobiele randcomputing dat samenwerking tussen apparaten en een mix van supervisie en zelftoezicht combineert om grote AI-modellen efficiënt te trainen en uit te voeren binnen de beperkte middelen van randapparaten.

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Dit paper introduceert FATE, een nieuwe reeks formele algebra-benchmarks met problemen die variëren van undergraduate-oefeningen tot PhD-niveau, om de aanzienlijke kloof tussen de huidige prestaties van grote taalmodellen in wiskundig redeneren en het niveau van modern wetenschappelijk onderzoek in kaart te brengen.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Dit paper introduceert Jr. AI Scientist, een autonoom systeem dat als beginnend onderzoeker werkt om nieuwe wetenschappelijke hypotheses te formuleren en te valideren op basis van bestaande papers, en analyseert zowel de prestaties als de risico's en beperkingen van dergelijke systemen voor de toekomst van de academische gemeenschap.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Deze paper introduceert HatePrototypes, interpreteerbare en overdraagbare vectorrepresentaties die, zelfs met slechts 50 voorbeelden per klasse, effectief zijn voor het detecteren van zowel expliciete als impliciete haatzaaiende taal zonder herhaaldelijke fine-tuning.

Irina Proskurina, Marc-Antoine Carpentier, Julien Velcin2026-03-10💬 cs.CL

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

Dit artikel introduceert LAMP, een framework dat taal verrijkt in multi-agent versterkend leren via een 'Denk-Spreek-Beslis'-pipeline om economische beslissingen robuuster, effectiever en interpreteerbaarder te maken.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Deze paper introduceert UnfoldLDM, een diep-ontvouwing-gebaseerd raamwerk dat latent diffusion-priors integreert om blind beeldherstel te verbeteren door degradatie-afhankelijkheid en oververvaging aan te pakken via een multi-granulariteitsmodule en een degradatie-resistente transformer.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

← Vorige Volgende →