cs.AI papers | Gist.Science

Can RL Improve Generalization of LLM Agents? An Empirical Study

Deze empirische studie toont aan dat hoewel Reinforcement Fine-Tuning (RFT) LLM-agenten goed laat generaliseren binnen een omgeving, de overdracht naar onbekende omgevingen beperkt blijft door semantische en interface-verschuivingen, terwijl sequentiële training en mix-training veelbelovende oplossingen bieden voor robuustere generalisatie.

Zhiheng Xi, Xin Guo, Jiaqi Liu, Jiazheng Zhang, Yutao Fan, Zhihao Zhang, Shichun Liu, Mingxu Chai, Xiaowei Shi, Yitao Zhai, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang2026-03-13🤖 cs.AI

Flowcean - Model Learning for Cyber-Physical Systems

Dit paper introduceert Flowcean, een modulair en gebruiksvriendelijk raamwerk dat data-gedreven machine learning automatiseert om efficiënte modellen voor Cyber-Physical Systems te genereren.

Maximilian Schmidt, Swantje Plambeck, Markus Knitt, Hendrik Rose, Goerschwin Fey, Jan Christian Wieck, Stephan Balduin2026-03-13🤖 cs.LG

An Intent of Collaboration: On Agencies between Designers and Emerging (Intelligent) Technologies

Dit artikel onderzoekt hoe ontwerpers hun creatieve agency kunnen behouden bij samenwerking met intelligente technologieën zoals LLMs, door te pleiten voor introspectie, technologische kennis en het bewust aanpassen van de mens-technologie dynamiek.

Pei-Ying Lin, Julie Heij, Iris Borst, Britt Joosten, Kristina Andersen, Wijnand IJsselsteijn2026-03-13🤖 cs.AI

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Dit artikel presenteert een effectieve sim-naar-realiteit aanpak voor diepe versterkingslering, waarbij een Girona AUV met succes wordt getraind in een vermenigvuldigde Stonefish-simulatie om autonome onderwaterdokking met een slagingspercentage van meer dan 90% te realiseren en te valideren in een fysiek testtank.

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao2026-03-13🤖 cs.AI

Just Use XML: Revisiting Joint Translation and Label Projection

Dit paper introduceert LabelPigeon, een raamwerk dat XML-tags gebruikt om vertaling en labelprojectie gelijktijdig uit te voeren, wat leidt tot verbeterde vertaalkwaliteit en aanzienlijke winst in cross-linguale transfer voor downstream-taken zonder de vertaalkwaliteit te schaden.

Thennal D K, Chris Biemann, Hans Ole Hatzel2026-03-13💬 cs.CL

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Dit paper introduceert 'Cascade', een aanvalsmethode die traditionele software- en hardwarekwetsbaarheden combineert met algoritmische zwaktes in samengestelde AI-systemen om de integriteit en vertrouwelijkheid van deze systemen te ondermijnen.

Sarbartha Banerjee, Prateek Sahu, Anjo Vahldiek-Oberwagner, Jose Sanchez Vicarte, Mohit Tiwari2026-03-13🤖 cs.AI

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Het artikel introduceert Slow-Fast Inference, een trainingsvrij raamwerk dat de inferentieversnelling bereikt door generatie te splitsen in frequente snelle stappen met een compacte geheugengebruik en zeldzame langzame stappen die de context bij semantische grenzen ververst, waardoor de doorvoer met 1,6 tot 14,4 keer toeneemt zonder kwaliteitsverlies.

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan2026-03-13🤖 cs.LG

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

XSkill is een tweestromenframework dat multimodale agenten in staat stelt om zonder parameterupdates continu te leren uit ervaringen en vaardigheden die visueel zijn verankerd, waardoor ze in open-ended omgevingen efficiënter hulpmiddelen kunnen gebruiken en beter kunnen plannen.

Guanyu Jiang (May), Zhaochen Su (May), Xiaoye Qu (May), Yi R. (May), Fung2026-03-13🤖 cs.AI

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Dit paper introduceert een trainingsvrije methode voor grof-gestuurde visuele generatie die gebruikmaakt van h-transformatie en een ruisniveau-gevoelige schema om hoogwaardige afbeeldingen en video's te synthetiseren vanuit lage-kwaliteit referenties zonder de noodzaak van gepaarde trainingsdata of kennis van de transformatieoperator.

Yanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen2026-03-13🤖 cs.AI

Chemical Reaction Networks Learn Better than Spiking Neural Networks

Dit artikel bewijst wiskundig en valideert numeriek dat chemische reactienetwerken zonder verborgen lagen bepaalde classificatietaken efficiënter en nauwkeuriger kunnen leren dan spiking-neuronale netwerken die wel verborgen lagen vereisen.

Sophie Jaffard, Ivo F. Sbalzarini2026-03-13📊 stat

Beyond Convolution: A Taxonomy of Structured Operators for Learning-Based Image Processing

Dit artikel presenteert een systematische taxonomie van geavanceerde operatoren die convolutie vervangen of uitbreiden in beeldverwerking, ingedeeld in vijf families op basis van hun structuur en geschiktheid voor verschillende taken.

Simone Cammarasana2026-03-13🤖 cs.AI

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

LoV3D is een geavanceerde pipeline die longitudinale 3D-hersenen-MRI-scans analyseert door regionale volumetrische beoordelingen te koppelen aan een cognitieve prognose, waardoor hallucinaties worden verminderd en de diagnose van neurodegeneratieve ziekten zoals Alzheimer aanzienlijk nauwkeuriger en biologisch plausibeler wordt.

Zhaoyang Jiang, Zhizhong Fu, David McAllister, Yunsoo Kim, Honghan Wu2026-03-13🤖 cs.AI

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Dit paper introduceert een multi-label deep learning-framework op basis van Temporal Convolutional Networks dat de binding van transcriptiefactoren aan DNA voorspelt door samenwerkingsmechanismen te modelleren, waardoor zowel bekende interacties worden bevestigd als nieuwe co-bindingspatronen worden ontdekt.

Pietro Demurtas, Ferdinando Zanchetta, Giovanni Perini, Rita Fioresi2026-03-13🧬 q-bio

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Deze paper introduceert een kostenefficiënte, iteratieve Neural Architecture Search-methode die gebruikmaakt van gespecialiseerde, niet-finetuned large language models en een historische feedbackgeheugen om binnen een enkele consumer GPU compacte en hoogpresterende beeldclassificatie-architecturen te ontwerpen zonder cloud-infrastructuur.

Xiaojie Gu, Dmitry Ignatov, Radu Timofte2026-03-13🤖 cs.LG

Human-Centred LLM Privacy Audits: Findings and Frictions

Dit paper introduceert LMP2, een browsergebaseerde zelfaudittool, en presenteert bevindingen uit twee gebruikersstudies die aantonen dat grote taalmodellen vaak persoonlijke kenmerken kunnen voorspellen, terwijl het onderzoek ook negen fricties blootlegt die de ontwikkeling van betrouwbare, mensgerichte privacyaudits voor generatieve AI belemmeren.

Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt2026-03-13💬 cs.CL

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Dit artikel presenteert een robuust multi-agent versterkingsleringsframework voor verkeerslichtregeling dat door middel van draairatio-randomisatie, een exponentiële fase-aanpassingsactie en een op buren gebaseerde observatiestrategie de generalisatie en stabiliteit verbetert, wat resulteert in een reductie van de gemiddelde wachttijd met meer dan 10% vergeleken met bestaande methoden.

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen, Ting-Han Wei, I-Hau Yeh, Sheng-Yao Kuan, Chien-Yao Wang, Hsuan-Han Lee, I-Chen Wu2026-03-13🤖 cs.AI

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Dit paper introduceert het concept van 'informatie zelfvergrendeling' bij RL-getrainde LLM-agents voor actief redeneren, analyseert de onderliggende oorzaken in actie-selectie en geloofstracking, en stelt een effectieve oplossing voor die door het injecteren van gerichte critiques tot 60% verbetering bereikt.

Deyu Zou, Yongqiang Chen, Fan Feng, Mufei Li, Pan Li, Yu Gong, James Cheng2026-03-13🤖 cs.AI

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Dit paper introduceert MMDDPG, een nieuw framework dat via een minimax-optimatie met een fractioneel doel de stabiliteit en robuustheid van deep reinforcement learning-agenten in continu besturingstaken verbetert door ongewenste verstoringen en modelonzekerheden effectief te weerstaan.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

SommBench: Assessing Sommelier Expertise of Language Models

Dit paper introduceert SommBench, een meertalige benchmark die de sommelier-expertise van taalmodellen test op wijntheorie, kenmerkvolleding en voedsel-wijncombinaties om te evalueren of tekstuele training voldoende is voor zintuiglijke oordelen.

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Dit paper introduceert CRAFT, een door pezen aangedreven, antropomorfe hand met hybride hard-zachte compliantie die door zachte materialen op de gewrichten en starre linkers een robuust, herhaalbaar en kostenefficiënt ontwerp biedt voor contactrijke manipulatie.

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

← Vorige Volgende →