cs.AI papers | Gist.Science

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Dit paper introduceert EDA, een parameter- en data-efficiënt framework dat de prestaties van speculatieve decoding op fijngetrainde LLM's herstelt door een ontkoppelde architectuur, data-regeneratie en selectieve steekproefneming te combineren, waardoor volledige hertraining overbodig wordt.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Deze studie presenteert een methode om nepnieuwsontkrachting te personaliseren op basis van de Big Five-persoonlijkheidstrekken met behulp van LLM's, waarbij geautomatiseerde evaluatie aantoont dat dergelijke gepersonaliseerde boodschappen over het algemeen overtuigender zijn dan generieke versies.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. Passaro2026-03-11🤖 cs.AI

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Dit artikel introduceert een compiler-gebaseerde implementatie van Mamba-2 in JAX die, dankzij het gebruik van standaard XLA-primitieven in plaats van aangepaste CUDA-kernels, portabele autoregressieve inferentie met $O(1)$ caching mogelijk maakt op CPU, NVIDIA GPU en Google TPU zonder host-synchronisatie.

Cosmo Santoni2026-03-11🤖 cs.AI

Routing without Forgetting

Dit paper introduceert 'Routing without Forgetting' (RwF), een transformer-architectuur die continu leren in online scenario's verbetert door dynamische prompts te genereren via energie-gebaseerde associatieve retrieval in plaats van traditionele parameter-efficiënte aanpassingen.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

Dit artikel presenteert een biologisch plausibel formalisme dat backpropagation through time benadert via een variatiele latente evenwichtstoestand, waardoor een lokaal en continu mechanisme voor spatiotemporale credit assignment in neurale netwerken wordt verkregen.

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. Petrovici2026-03-11🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Dit paper introduceert context engineering als een nieuwe discipline die prompt engineering overstijgt en samen met intent engineering en specificatie engineering een volwassenheidsmodel vormt voor het schaalbaar en autonoom inzetten van multi-agent AI-systemen in het bedrijfsleven.

Vera V. Vishnyakova2026-03-11🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

Deze paper introduceert ARAS400k, een groot schaalbaar dataset voor remote sensing dat synthetische data combineert met echte beelden en een visueel-taal framework voor interpreteerbare augmentatie en evaluatie, wat resulteert in superieure prestaties voor semantische segmentatie en beeldbeschrijving.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Het paper introduceert PRECEPT, een unified framework voor testtijd-adaptatie dat de prestaties van LLM-agenten verbetert door deterministische regelretrieval, conflictbewust geheugen en een door Pareto-gestuurde prompt-evolutie (COMPASS) te combineren, wat leidt tot aanzienlijke winsten in generalisatie, robuustheid en leerefficiëntie.

Arash Shahmansoori2026-03-11🤖 cs.AI

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Dit paper introduceert de MM-tau-p²-benchmark, een nieuw evaluatiekader met twaalf nieuwe metrics om de robuustheid van multimodale agenten in dual-control settings te beoordelen, met name in situaties waar persona-adaptatie en gebruikersinput een rol spelen.

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Dit paper introduceert MiniAppBench, een nieuw benchmark en evaluatiekader (MiniAppEval) dat de prestaties van grote taalmodellen meet bij het genereren van interactieve HTML-toepassingen, een domein waar bestaande benchmarks tekortschieten.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

Het paper introduceert KV-Lock, een trainingsvrije methode voor video-editing die dynamisch de achtergrondvastlegging en de conditionele geleiding aanpast op basis van hallucinatie-detectie om achtergrondconsistentie en voorgrondkwaliteit te optimaliseren in DiT-gebaseerde videodiffusiemodellen.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Deze paper introduceert een open-source framework voor tijdreeksanomaliedetectie met Graph Neural Networks, dat niet alleen de prestaties en interpreteerbaarheid van dergelijke modellen verbetert, maar ook kritische inzichten biedt over de huidige evaluatiemethoden.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Dit paper introduceert het Omni Parsing-framework en het bijbehorende Logics-Parsing-Omni-model, die een gestructureerde, bewijsgebaseerde aanpak bieden om fragmentarische multimodale data (documenten, afbeeldingen en audio-visuele streams) om te zetten in traceerbare, machine-leesbare kennis.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Dit paper introduceert EsoLang-Bench, een benchmark die esoterische programmeertalen gebruikt om aan te tonen dat grote taalmodellen, ondanks hoge scores op standaardtests, gebrek hebben aan echt redeneervermogen en in plaats daarvan voornamelijk op memorisatie vertrouwen.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Deze studie introduceert een geautomatiseerd classificatiekader voor het beheer van hartklierenrisico bij ouderen, waarbij een aangepaste Transformer-architectie die lange contextuele afhankelijkheden in ongestructureerde patiëntendossiers verwerkt, superieure prestaties levert ten opzichte van traditionele methoden en generatieve grote taalmodellen.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Dit paper introduceert AutoViVQA, een groot automatisch gegenereerd dataset voor Vietnamese visuele vraagbeantwoording, en onderzoekt transformer-architecturen en geautomatiseerde evaluatiemetrics in een meertalige context.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Dit paper introduceert ESAinsTOD, een uniek end-to-end raamwerk voor taakgericht dialogen dat door middel van instructie- en schema-aanpassing grote taalmodellen in staat stelt om zich flexibel aan te passen aan diverse scenario's, superieure prestaties te leveren op bestaande benchmarks en robuust te zijn in low-resource en ruisige omgevingen.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Dit paper introduceert ActiveUltraFeedback, een modulaire actieve leer-pijplijn die onzekerheidsschattingen en nieuwe selectiemethoden gebruikt om het labelen van voorkeursdata voor het uitlijnen van grote taalmodellen aanzienlijk te versnellen en te optimaliseren met slechts een fractie van de benodigde annotatie.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Dit paper introduceert Mousse, een nieuwe optimizer die de stabiliteit van Muon combineert met de geometrische aanpassing van Shampoo door spectrale updates uit te voeren in een witgemaakte coördinatenruimte, wat leidt tot een aanzienlijke versnelling van het trainingsproces voor taalmodellen zonder noemenswaardige rekenkosten.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Dit paper introduceert OOD-MMSafe, een benchmark en het CASPO-framework, om de veiligheid van multimodale grote taalmodellen te verbeteren door zich te richten op het voorspellen van verborgen gevolgen in plaats van alleen op schadelijke intenties.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

← Vorige Volgende →

cs.AI