cs.AI papers | Gist.Science

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Dit paper introduceert de MM-tau-p²-benchmark, een nieuw evaluatiekader met twaalf nieuwe metrics om de robuustheid van multimodale agenten in dual-control settings te beoordelen, met name in situaties waar persona-adaptatie en gebruikersinput een rol spelen.

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Dit paper introduceert MiniAppBench, een nieuw benchmark en evaluatiekader (MiniAppEval) dat de prestaties van grote taalmodellen meet bij het genereren van interactieve HTML-toepassingen, een domein waar bestaande benchmarks tekortschieten.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

Het paper introduceert KV-Lock, een trainingsvrije methode voor video-editing die dynamisch de achtergrondvastlegging en de conditionele geleiding aanpast op basis van hallucinatie-detectie om achtergrondconsistentie en voorgrondkwaliteit te optimaliseren in DiT-gebaseerde videodiffusiemodellen.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Deze paper introduceert een open-source framework voor tijdreeksanomaliedetectie met Graph Neural Networks, dat niet alleen de prestaties en interpreteerbaarheid van dergelijke modellen verbetert, maar ook kritische inzichten biedt over de huidige evaluatiemethoden.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Dit paper introduceert het Omni Parsing-framework en het bijbehorende Logics-Parsing-Omni-model, die een gestructureerde, bewijsgebaseerde aanpak bieden om fragmentarische multimodale data (documenten, afbeeldingen en audio-visuele streams) om te zetten in traceerbare, machine-leesbare kennis.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Dit paper introduceert EsoLang-Bench, een benchmark die esoterische programmeertalen gebruikt om aan te tonen dat grote taalmodellen, ondanks hoge scores op standaardtests, gebrek hebben aan echt redeneervermogen en in plaats daarvan voornamelijk op memorisatie vertrouwen.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Deze studie introduceert een geautomatiseerd classificatiekader voor het beheer van hartklierenrisico bij ouderen, waarbij een aangepaste Transformer-architectie die lange contextuele afhankelijkheden in ongestructureerde patiëntendossiers verwerkt, superieure prestaties levert ten opzichte van traditionele methoden en generatieve grote taalmodellen.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Dit paper introduceert AutoViVQA, een groot automatisch gegenereerd dataset voor Vietnamese visuele vraagbeantwoording, en onderzoekt transformer-architecturen en geautomatiseerde evaluatiemetrics in een meertalige context.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Dit paper introduceert ESAinsTOD, een uniek end-to-end raamwerk voor taakgericht dialogen dat door middel van instructie- en schema-aanpassing grote taalmodellen in staat stelt om zich flexibel aan te passen aan diverse scenario's, superieure prestaties te leveren op bestaande benchmarks en robuust te zijn in low-resource en ruisige omgevingen.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Dit paper introduceert ActiveUltraFeedback, een modulaire actieve leer-pijplijn die onzekerheidsschattingen en nieuwe selectiemethoden gebruikt om het labelen van voorkeursdata voor het uitlijnen van grote taalmodellen aanzienlijk te versnellen en te optimaliseren met slechts een fractie van de benodigde annotatie.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Dit paper introduceert Mousse, een nieuwe optimizer die de stabiliteit van Muon combineert met de geometrische aanpassing van Shampoo door spectrale updates uit te voeren in een witgemaakte coördinatenruimte, wat leidt tot een aanzienlijke versnelling van het trainingsproces voor taalmodellen zonder noemenswaardige rekenkosten.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Dit paper introduceert OOD-MMSafe, een benchmark en het CASPO-framework, om de veiligheid van multimodale grote taalmodellen te verbeteren door zich te richten op het voorspellen van verborgen gevolgen in plaats van alleen op schadelijke intenties.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Dit paper introduceert MUGEN, een benchmark die de beperkingen van grote audio-taalmodellen bij het verwerken van meerdere simultane audio-invoeren blootlegt en aantoont dat trainingsvrije strategieën zoals Audio-Permutational Self-Consistency de prestaties aanzienlijk verbeteren.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Dit paper introduceert CVS, een trainingsvrije methode voor het selecteren van hoogwaardige multimodale data voor visueel-taalmodellen door de discrepantie in antwoordvaliditeit met en zonder de vraag te meten, waardoor de prestaties aanzienlijk worden verbeterd met minder data en lagere rekenkosten.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

AutoAgent is een zelfevoluerend multi-agent framework dat adaptiviteit in dynamische omgevingen verbetert door evolutie van cognitie, contextuele besluitvorming en elastische geheugenorkestratie te combineren om langdurig leren en real-time beslissingen te verenigen zonder externe hertraining.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Dit paper introduceert RbtAct, een methode die gebruikmaakt van auteursrebuttals als impliciete supervisie om grote taalmodellen te trainen in het genereren van specifiekere en actievere peer-review feedback.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Dit paper introduceert EXPLORE-Bench, een benchmark voor het evalueren van het vermogen van multimodale grote taalmodellen tot lang-horizon redenering in egocentrische omgevingen, en toont aan dat deze modellen significant achterblijven bij menselijke prestaties ondanks verbeteringen door stapsgewijze redenering.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

Deze paper introduceert Ego, een efficiënte methode voor het personaliseren van vision-language modellen door interne attention-mechanismen te gebruiken om visuele tokens als conceptgeheugen te extraheren, waardoor geavanceerde aanpassing mogelijk is zonder extra trainingsfasen of externe modules.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Het paper introduceert World2Mind, een trainingsvrije toolkit die foundation modellen in staat stelt om robuuste allocentrische ruimtelijke redenering uit te voeren door het construeren van gestructureerde cognitieve kaarten en een allocentrische ruimtelijke boom, waardoor zelfs tekst-only modellen complexe 3D-taken kunnen oplossen met prestaties die dicht bij die van geavanceerde multimodale modellen liggen.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Dit onderzoek toont aan dat simulatie-gebaseerde inferentie (SBI) een veelbelovende machinelearningtechniek is om de parameters van neutrino-interactiemodellen nauwkeuriger te schatten dan traditionele methoden, zoals aangetoond door de toepassing op GENIE- en NuWro-simulaties.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

← Vorige Volgende →

cs.AI

MM-tau-p2^22: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings