cs.AI papers | Gist.Science

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Dit paper pleit vanuit een consequentiaalistisch perspectief voor het gebruik van proper scoring rules in plaats van binaire classificatiemetrics, onderbouwd met een theoretisch kader, een empirische analyse van huidige praktijken en de introductie van het Python-pakket `briertools` om deze aanpak toegankelijker te maken.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Dit paper introduceert MCP Bridge, een lichtgewicht RESTful proxy die Model Context Protocol-servers toegankelijk maakt voor resource-beperkte omgevingen via een veilige, LLM-agnostische API, en combineert dit met een geoptimaliseerde Qwen3-variant die op de MCPToolBench++-benchmark aanzienlijk beter presteert dan bestaande baselines.

Arash Ahmadi, Sarah Sharif, Yaser M. Banad2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Dit paper introduceert Stepwise Guided Policy Optimization (SGPO), een framework dat het probleem van volledig negatieve steekproefgroepen in GRPO oplost door gebruik te maken van een stapsgewijze beoordelaar voor diversiteit, waardoor het model effectief kan leren van fouten zonder dat de beoordelaar zelf correcte oplossingen hoeft te genereren.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

Dit paper introduceert MathQ-Verify, een nieuw vijfstapsproces dat zorgvuldig slecht gestelde wiskundeproblemen filtert door syntactische validatie, formalisering, logicacontrole en volledigheidstests, waardoor de kwaliteit van wiskundedatasets aanzienlijk verbetert en de F1-score tot 25 procentpunten stijgt ten opzichte van bestaande methoden.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Dit paper introduceert UltraEdit, een trainings-, onderwerp- en geheugenloze methode voor het levenslang bijwerken van taalmodellen die aanzienlijk sneller en minder geheugenintensief is dan bestaande technieken, waardoor het zelfs op consumentenhardware mogelijk wordt om miljoenen bewerkingen uit te voeren zonder bestaande vaardigheden te verliezen.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Het paper introduceert SATURN, een reinforcement learning-framework dat gebruikmaakt van Boolean Satisfiability-problemen om de redeneercapaciteit van grote taalmodellen schaalbaar, verifieerbaar en met gecontroleerde moeilijkheidsgraad te trainen via een curriculum learning-aanpak.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Deze paper introduceert Daily-Omni, een nieuw meerkeuze benchmark voor audio-visuele vragen die de uitdagingen blootlegt van bestaande multimodale modellen bij het synchroniseren van tijdsafhankelijke informatie tussen auditieve en visuele modaliteiten.

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Dit artikel biedt een systematische review van de integratie van fundamentele modellen in mobiele service-robots, waarbij de huidige uitdagingen, praktische toepassingen, ethische implicaties en toekomstige onderzoeksrichtingen voor betrouwbare en adaptieve robotica in menselijke omgevingen worden belicht.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

Dit paper introduceert TSRating, een uniek raamwerk dat meta-learning en Large Language Models combineert om de kwaliteit van tijdreeksdata uit diverse domeinen nauwkeurig en efficiënt te beoordelen.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Dit paper introduceert CORA, een methode voor credit assignment in multi-agent reinforcement learning die gebruikmaakt van coöperatieve speltheorie en kernallocatie om agenten effectiever te belonen op basis van hun coalitiële bijdragen, wat leidt tot verbeterde gecoördineerde prestaties.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Dit artikel introduceert ChannelTokenFormer, een Transformer-gebaseerd raamwerk dat tegelijkertijd complexe kanaalafhankelijkheden, asynchrone bemonstering en ontbrekende waarden aanpakt om robuuste multivariate tijdreeksvoorspellingen in real-world scenario's mogelijk te maken.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Dit paper introduceert ConLID, een methode voor superviserend contrastief leren die de taalidentificatie voor taakarme talen op domein-onafhankelijke data significant verbetert zonder de prestaties voor talen met veel data te verstoren.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Deze paper introduceert OPENXRD, een uitgebreid benchmarkkader dat de prestaties van talloze talmodellen evalueert bij het beantwoorden van kristallografische vragen en aantoont dat contextuele informatie, vooral van experts, de prestaties van middelgrote modellen aanzienlijk verbetert.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

On the mechanical creation of mathematical concepts

Dit paper stelt dat wiskundige ontdekking voortkomt uit het creëren van expliciete concepten die de taal van het probleem oplossen verruimen, een stap die huidige AI-systemen nog niet kunnen zetten omdat ze uitsluitend werken met impliciete concepten binnen een vast vocabulaire.

Asvin G2026-03-11🤖 cs.AI

QSpark: Towards Reliable Qiskit Code Generation

Het onderzoek presenteert QSpark, een gefinetuned Qwen2.5-Coder-32B-model dat met behulp van GRPO en ORPO aanzienlijk betere resultaten behaalt dan bestaande modellen bij het genereren van foutbestendige Qiskit-code, hoewel er nog uitdagingen blijven bij geavanceerde taken.

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy + 1 more2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Dit paper introduceert Latent Policy Steering (LPS), een methode die een vooraf getraind wereldmodel en een waardefunctie gebruikt om robotvisuomotorische beleidsplanning te verbeteren door optische stroming als embodiment-agnostische actierepresentatie te benutten, wat leidt tot aanzienlijke prestatiewinsten in scenario's met beperkte trainingsdata.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Het paper introduceert MMGraphRAG, een nieuw framework dat visuele taalscenen en tekstuele kennisgrafen combineert via een innovatieve spectrale koppelmethode om hallucinaties in multimodale Large Language Models te verminderen en de interpretatie van complexe visuele structuren te verbeteren.

Xueyao Wan, Hang Yu2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Deze studie introduceert een LLM-agentframework dat, door middel van drie debiasing-mechanismen waaronder een 'duivel-advocaat'-agent, de invloed van mediaberichten op de Amerikaanse houding ten opzichte van China simuleert en aantoont dat kritische contextualisatie effectiever is dan feitelijke extractie om menselijke cognitieve neigingen te benaderen.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Dit paper introduceert SFDA-PFT, een lichtgewicht methode voor bronvrije domeinaanpassing die een voorgetraind model aanpast aan ongelabelde neutrale doelgegevens door gebruik te maken van gepersonaliseerde feature-translatie in de latentruimte, waardoor privacybehoud wordt gewaarborgd en de prestaties voor gezichtsuitdrukkingsherkenning worden verbeterd zonder brondata of beeldsynthese.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

Dit paper introduceert AI Blob!, een experimenteel systeem dat Large Language Models en semantische technologieën gebruikt om Italiaanse televisiearchieven te transcriberen, te categoriseren en automatisch te herschikken tot thematische montages die de ironische en kritische stijl van het oorspronkelijke programma 'Blob' nabootsen.

Roberto Balestri2026-03-11💬 cs.CL

← Vorige Volgende →