Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Dit paper introduceert en evalueert vijf prompt-engineeringstrategieën om hallucinaties in industriële LLM-toepassingen te verminderen, waarbij de 'Enhanced Data Registry'-methode (M4) de meest consistente resultaten boekte en een geoptimaliseerde versie van de 'Decomposed Model-Agnostic Prompting'-methode (M2) de grootste verbetering liet zien.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon2026-03-12🤖 cs.AI

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

Het paper introduceert ADVERSA, een geautomatiseerd red-teaming-framework dat de degradatie van veiligheidsbarrières in grote taalmodellen tijdens meervoudige interacties meet en de betrouwbaarheid van beoordelaars kwantificeert, waarbij experimenten aantonen dat succesvolle jailbreaks zich voornamelijk in de vroege rondes voordoen in plaats van door langdurige druk te accumuleren.

Harry Owiredu-Ashley2026-03-12🤖 cs.AI

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Het paper introduceert KernelSkill, een multi-agent framework dat de efficiëntie van GPU-kernels verbetert door impliciete heuristieken te vervangen door kennisgedreven vaardigheden en een dubbel niveau van geheugen, wat resulteert in aanzienlijke snelheidswinsten en een hogere succesratio ten opzichte van eerdere methoden.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG