cs.SE papers | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Het artikel introduceert Traversal-as-Policy, een methode die OpenHands-uitvoeringslogs distilleert tot een uitvoerbaar, verifieerbaar Gated Behavior Tree-beleid dat autonome agents veiliger, robuuster en efficiënter maakt door het onbeperkte genereren te vervangen door gestructureerde boomtraversie met deterministische veiligheidscontroles.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Dit paper introduceert EigenData, een zelfevoluerend multi-agentplatform dat de volledige levenscyclus van function-calling data automatiseert en gebruikt om de Berkeley Function-Calling Leaderboard te auditeren en te repareren, wat resulteert in een betrouwbaardere evaluatie die beter correleert met menselijke oordelen over functionele correctheid.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Dit paper introduceert Tool-Genesis, een diagnostisch benchmark dat de capaciteit van taalagenten evalueert om tools volledig autonoom te creëren op basis van abstracte eisen, waarbij wordt aangetoond dat zelfs geavanceerde modellen moeite hebben met het genereren van precieze interfaces en uitvoerbare logica, wat leidt tot significante prestatiedalingen in downstream taken.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

Dit paper presenteert de eerste grootschalige taxonomie van fouten in Model Context Protocol (MCP)-servers, gebaseerd op empirisch bewijs en een enquête onder practitioners, om inzicht te geven in de betrouwbaarheid en beveiliging van AI-gedreven softwaresystemen.

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Dit paper introduceert LTLGuard, een modulaire toolchain die compacte taalmodellen combineert met lichtgewicht symbolische redeneertools om uit informele eisen correcte en consistentie Linear Temporal Logic (LTL)-specificaties te genereren.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

CodeScout is een nieuwe aanpak die ondertitelde softwareproblemen verrijkt met contextuele analyse van de codebasis, waardoor AI-agenten hun oplossingspercentage met 20% verhogen door mislukte trajecten te voorkomen en de gebruikersintentie te verduidelijken.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder is een nieuw reinforcement learning-framework dat grote taalmodellen leert om code autonoom te genereren, te reflecteren op fouten en zichzelf te corrigeren zonder externe hulp, wat leidt tot state-of-the-art prestaties en een aanzienlijke vermindering van de inferentie-overhead.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Deze paper introduceert een gestructureerde XAI-aanpak die ruwe uitvoeringstraces van LLM-coderingsagenten omzet in begrijpelijke, visuele en actiegerichte inzichten, waardoor ontwikkelaars fouten aanzienlijk sneller kunnen diagnosticeren en correcter kunnen oplossen dan met bestaande methoden.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

Deze paper introduceert MCCom, een framework dat lokale kleine modellen en cloud-based grote modellen cascadeert via gebruikersacties en speculatieve decoding om de latentie en kosten van code-completie aanzienlijk te verlagen terwijl de nauwkeurigheid wordt verbeterd.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

Dit paper introduceert APIDiffer, het eerste specificatie-gestuurde differentiatietestframework dat automatisch API-inconsistenties in de Ethereum-klantenecosysteem detecteert en zo 72 bugs heeft blootgelegd met een aanzienlijk hogere codecoverage en een lagere rate van vals-positieven dan bestaande methoden.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

Dit artikel presenteert een NLP-gedreven aanpak die gebruikmaakt van grote taalmodellen om de semantische uitlijning tussen tekstuele specificaties en domeinmodellen te detecteren, waarbij model-elementen met hoge precisie worden geclassificeerd als correct, incorrect of onbepaald.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

Deze studie biedt een kwantitatieve pre-AI-basislijn uit juli 2022 die aantoont dat ontwikkelaars over het algemeen zeer tevreden waren met hun IDE's, waarbij autonomie in toolkeuze de belangrijkste drijvende factor was, terwijl cloud-IDE's nog nauwelijks werden gebruikt en er een opvallend verschil bestaat tussen hoge algemene tevredenheid en lage retentie voor traditionele IDE's.

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Dit artikel introduceert een nieuw, op LINDDUN gebaseerd privacy-bedreigingsmodel specifiek voor generatieve AI-systemen, dat is ontwikkeld door een systematische literatuurstudie en een casestudie, en dat effectief is gevalideerd op een AI-agent.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Dit artikel presenteert een aangepaste versie van Pynguin die testgeneratie en -uitvoering scheidt via subprocessen om crashes in C-uitbreidingen van Python-bibliotheken te detecteren en reproduceerbare testgevallen te genereren, wat leidt tot de ontdekking van 32 nieuwe fouten.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Deze empirische studie toont aan dat het aanpassen van hyperparameters de energieconsumptie van deep learning-modellen kan verlagen zonder prestatieverlies, wat bijdraagt aan groenere AI, vooral in parallelle trainingsomgevingen.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Deze studie toont aan dat grote taalmodellen story points voor softwareprojecten nauwkeuriger kunnen schatten dan traditionele machine learning-modellen zonder trainingsdata, en dat hun prestaties verder verbeteren door het gebruik van enkele voorbeelden of menselijke vergelijkingen.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Generalized Feature Model for Digital Twins

Dit artikel presenteert een algemeen featuremodel voor digitale tweelingen, ontwikkeld op basis van een systematische literatuurstudie en gevalideerd aan de hand van drie use-cases, dat dient als fundament voor ontwerp, ontwikkeling en verificatie van digitale tweelingen.

Philipp Zech, Yanis Mair, Michael Vierhauser, Pablo Oliveira Antonino, Frank Schnicke, Tony ClarkMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Deze paper introduceert LoCoEval, het eerste benchmark voor het beheer van lange-termijn conversatiecontext in repository-ontwikkeling, en presenteert een verbeterde methode die repository- en conversatie-informatie integreert om de beperkingen van bestaande benaderingen te overwinnen.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs

A Reference Architecture of Reinforcement Learning Frameworks

Dit artikel introduceert een referentiearchitectuur voor versterkingsleerframeworks, gebaseerd op een grondige analyse van 18 state-of-the-practice implementaties, om een gemeenschappelijke basis te bieden voor vergelijking, evaluatie en integratie.

Xiaoran Liu, Istvan DavidMon, 09 Ma🤖 cs.AI

Understanding and Finding JIT Compiler Performance Bugs

Dit paper introduceert Jittery, een nieuw hulpmiddel dat gebruikmaakt van gelaagd differentiële prestatietesten om voor het eerst automatisch prestatiebugs in JIT-compilers op te sporen, wat resulteerde in de ontdekking en bevestiging van meerdere nieuwe bugs in Oracle HotSpot en Graal.

Zijian Yi, Cheng Ding, August Shi, Milos GligoricMon, 09 Ma💻 cs

← Vorige Volgende →