cs.AI papers | Gist.Science

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Dit paper introduceert en evalueert vijf prompt-engineeringstrategieën om hallucinaties in industriële LLM-toepassingen te verminderen, waarbij de 'Enhanced Data Registry'-methode (M4) de meest consistente resultaten boekte en een geoptimaliseerde versie van de 'Decomposed Model-Agnostic Prompting'-methode (M2) de grootste verbetering liet zien.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon2026-03-12🤖 cs.AI

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Dit paper introduceert eXplicit Sharpness-Aware Minimization (XSAM), een verbeterde implementatie die de beperkingen van de bestaande SAM-methode overwint door de richting van het maximum expliciet te schatten en een effectieve zoekruimte te creëren, wat resulteert in consistente prestatieverbeteringen met verwaarloosbare rekenkosten.

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

Dit paper introduceert InFusionLayer, een open-source Python-tool die Combinatorial Fusion Analysis (CFA) technieken, zoals de RSC-functie en cognitieve diversiteit, integreert in een ensemble-leerarchitectuur om de prestaties van multiclassificatieproblemen te verbeteren en compatibel is met PyTorch, TensorFlow en Scikit-learn.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

Deze paper introduceert FlowSem-MAE, een protocol-natief tabulair pretrainingsparadigma dat de inductieve bias-mismatch van bestaande byte-sequentiemethoden oplost door protocolsemantiek te respecteren, waardoor het encrypted traffic classificatie aanzienlijk verbetert met slechts de helft van de gelabelde data.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Training Language Models via Neural Cellular Automata

Dit onderzoek toont aan dat het voorpre-trainen van grote taalmodellen op synthetische, niet-taalgebonden data gegenereerd door neurale cellulaire automaten de prestaties en convergentie significant verbetert, zelfs ten opzichte van veel grotere hoeveelheden natuurlijk taaldata.

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Dit artikel introduceert Agentic AIBOMs, een uitbreiding van traditionele SBOMs met een multi-agent architectuur die dynamische runtime-gedragingen en kwetsbaarheidscontext vastlegt om reproduceerbaarheid en exploitatiebeoordeling te verbeteren.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan Atefi2026-03-12🤖 cs.AI

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

Het paper introduceert NabaOS, een lichtgewicht verificatiekader dat, geïnspireerd door de Indiase Nyaya Shastra-epistemologie, gebruikmaakt van HMAC-gesigneerde tool-ontvangstbewijzen in plaats van zware zero-knowledge-bewijzen om hallucinaties van AI-agenten in real-time met minimale latentie te detecteren.

Abhinaba Basu2026-03-12🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Dit position paper presenteert een computerarchitectuurperspectief op multi-agent geheugen door een drie-laags hiërarchie en protocollen voor consistentie te definiëren als cruciale stappen voor schaalbare, betrouwbare systemen.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen Zhao2026-03-12🤖 cs.AI

The Epistemic Support-Point Filter: Jaynesian Maximum Entropy Meets Popperian Falsification

Dit artikel introduceert en bewijst de optimaliteit van de Epistemische Ondersteuningspunt-filter (ESPF), een uniek filter dat Jaynes' maximum-entropieprincipe voor propagatie combineert met Popperiaanse falsificatie voor updates om de ergste-case epistemische onwetendheid te minimaliseren zonder gebruik te maken van a-priori-kansen.

Moriba Kemessia Jah2026-03-12🔢 math

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

Dit paper introduceert HTMuon, een verbeterde versie van de Muon-optimizer die door middel van heavy-tailed spectrale correctie de prestaties van LLM's en beeldclassificatie verbetert door de beperkingen van de oorspronkelijke orthogonale update-regel te overwinnen.

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

Het paper introduceert ADVERSA, een geautomatiseerd red-teaming-framework dat de degradatie van veiligheidsbarrières in grote taalmodellen tijdens meervoudige interacties meet en de betrouwbaarheid van beoordelaars kwantificeert, waarbij experimenten aantonen dat succesvolle jailbreaks zich voornamelijk in de vroege rondes voordoen in plaats van door langdurige druk te accumuleren.

Harry Owiredu-Ashley2026-03-12🤖 cs.AI

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Dit paper presenteert de eerste toepassing van sparse autoencoders op het tijdreeks-foundationmodel Chronos-T5, waarbij wordt aangetoond dat causaal kritieke kenmerken zich bevinden in de middenlagen die abrupte dynamiek detecteren, in plaats van in de semantisch rijkste laatste laag.

Anurag Mishra2026-03-12🤖 cs.LG

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Deze studie analyseert 319 door LLM's gegenereerde beveiligingspatches en concludeert dat deze modellen, ondanks het behoud van functionaliteit, vaak falen in het correct oplossen van kwetsbaarheden door semantisch misverstand, wat strenge validatie voorafgaand aan implementatie noodzakelijk maakt.

Amir Al-Maamari2026-03-12🤖 cs.AI

Marginals Before Conditionals

Dit artikel toont aan dat neurale netwerken bij het leren van conditionele relaties eerst een marginaal plateau bereiken dat wordt gestabiliseerd door gradiëntruis, voordat ze een scherpe collectieve overgang maken naar volledige conditionele kennis.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

Dit paper introduceert TASER, een efficiënt decentraal verdedigingskader voor UAV-zwermen dat gebruikmaakt van spectrale energieconcentratie in plaats van complexe uitbijterdetectie om sluwe backdoor-aanvallen in Federated Learning-systemen effectief te onderdrukken.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

Dit paper introduceert Amnesia, een lichtgewicht aanvalstechniek die interne transformer-activaties manipuleert om bestaande veiligheidsmechanismen in open-weight grote taalmodellen te omzeilen en zo schadelijke inhoud te genereren zonder aanvullende training.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Digging Deeper: Learning Multi-Level Concept Hierarchies

Dit paper introduceert Multi-Level Concept Splitting (MLCS) en Deep-HiCEMs om diepe, mensinterpreteerbare concepthiërarchieën te ontdekken uit slechts top-niveau supervisie, waardoor modellen zowel nauwkeuriger worden als beter interpreteerbaar en manipuleerbaar op verschillende abstractieniveaus.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Het paper introduceert KernelSkill, een multi-agent framework dat de efficiëntie van GPU-kernels verbetert door impliciete heuristieken te vervangen door kennisgedreven vaardigheden en een dubbel niveau van geheugen, wat resulteert in aanzienlijke snelheidswinsten en een hogere succesratio ten opzichte van eerdere methoden.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Deze paper introduceert ES-dLLM, een trainingsvrij raamwerk dat de inferentie van diffusion-taalmodellen versnelt door tokens in vroege lagen te overslaan op basis van variatie in tussentijdse representaties, wat resulteert in een tot 16,8 keer hogere snelheid zonder kwaliteitsverlies.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

Dit paper introduceert de 'Multi-Stream Perturbation Attack', een methode die de veiligheidsuitlijning van denkende LLM's omzeilt door meerdere taakstromen te verweven, wat leidt tot een ineenstorting van het redeneerproces en een hoge succesgraad bij jailbreak-aanvallen.

Fan Yang2026-03-12🤖 cs.AI

← Vorige Volgende →