cs.SE papers | Gist.Science

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Deze studie analyseert waarom software-engineers ChatGPT vaak verlaten vanwege fouten en cognitieve overbelasting, en toont aan dat onbruikbare antwoorden de kans op opgeven elf keer vergroten, terwijl het stellen van extra prompts de kans op opgeven met 17% verkleint.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

Towards a Taxonomy of Software Log Smells

Dit artikel presenteert een taxonomie van negen 'logsmells' in software, afgeleid uit een literatuurstudie, om ontwikkelaars te helpen betere loggingcode te schrijven en onderzoekers aan te moedigen bestaande hulpmiddelen te verbeteren.

Nyyti Saarimäki, Donghwan Shin, Domenico BianculliWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Dit paper introduceert GateLens, een LLM-agent die Relational Algebra gebruikt als formele tussenlaag om complexe tabulaire data in de automobielindustrie snel, transparant en betrouwbaar te analyseren, waardoor de analysetijd met meer dan 80% wordt gereduceerd ten opzichte van bestaande methoden.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Deze studie toont aan dat GPT-4o, versterkt door instructietuning en few-shot prompting, aanzienlijk beter presteert dan bestaande modellen bij het detecteren van kwetsbaarheden in meerdere programmeertalen op zowel functie- als lijnniveau.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Deze paper presenteert de eerste grootschalige empirische studie naar het gebruik van drijvende-kommaberekeningen in statisch getypeerde GitHub-repositories, waarbij een dataset van 10 miljoen functies wordt vrijgegeven om de representativiteit van bestaande benchmarks te evalueren en toekomstige analyse-technieken te verbeteren.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Dit paper introduceert SEER, een zelfoptimaliserend framework dat de Chain-of-Thought-redenering van grote taalmodellen adaptief comprimeert om de rekenkosten en latentie te verlagen zonder in te leveren op de nauwkeurigheid.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Dit paper introduceert Preguss, een modulair raamwerk dat statische analyse en deductieve verificatie combineert met LLM-ondersteunde synthesese om formele specificaties te genereren en zo de verificatie van grote, real-world programma's met meer dan 1000 regels code aanzienlijk te automatiseren en de menselijke inspanning met 80,6% tot 88,9% te verminderen.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Dit artikel introduceert een doelgerichte benadering voor het beoordelen van methoden voor Privacy by Design, waarbij wordt voorgesteld om organisatiedoelen in plaats van alleen proceskenmerken als maatstaf te hanteren om de keuze en aanpassing van vereistenengineering-methoden te ondersteunen.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Deze paper introduceert SkillCraft, een benchmark die de vaardigheid van LLM-agenten test om herbruikbare 'vaardigheden' (samengestelde tool-combinaties) te vormen en opnieuw te gebruiken, wat leidt tot aanzienlijke efficiëntiewinsten en een hogere succesratio door compositie.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Het artikel introduceert SiliconMind-V1, een lokaal fijngefineerd multi-agent framework dat door middel van testgedreven verificatie en iteratief debuggen functioneel correcte Verilog-code genereert en hiermee de huidige state-of-the-art prestaties verbetert.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Dit paper introduceert KernelCraft, het eerste benchmarkkader dat aantoont dat agentische LLM-systemen via een feedback-gedreven workflow effectief lage-niveau kernels kunnen genereren en optimaliseren voor nieuwe hardware-architecturen, waardoor de ontwikkelingstijd en -kosten voor dergelijke accelerators aanzienlijk worden verlaagd.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

Dit paper introduceert FormalRTL, een nieuw multi-agent raamwerk dat software-referentiemodellen gebruikt als formele specificaties om betrouwbare en schaalbare RTL-codegeneratie voor complexe industriële ontwerpen mogelijk te maken.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

Dit artikel introduceert een uitbreiding van de ACETONE C-codegenerator om parallelle code voor multi-core architecturen te genereren, waarbij het processor-toewijzingsprobleem formeel wordt gedefinieerd en de staat van de kunst wordt onderzocht.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

Dit paper introduceert Turn, een gecompileerde, actor-gebaseerde programmeertaal die LLM-inferentie als een getypeerde primitief behandelt en via taalgebouwde constructies zoals cognitieve typeveiligheid en een capability-gebaseerd identiteitssysteem, kritieke invariants voor autonome agenten garandeert in plaats van ze als applicatieniveau-conventies te laten bestaan.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Dit paper introduceert Test-Driven AI Agent Definition (TDAD), een methode die agent-prompten compilarieert vanuit gedragspecificaties via een iteratief testgedreven proces, waardoor de betrouwbaarheid en regressievrijheid van tool-gebruikende AI-agenten in productie wordt gewaarborgd.

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Dit paper introduceert LDP, een identiteitsbewust protocol voor multi-agent LLM-systemen dat modelkenmerken als eerste klas-bouwstenen gebruikt om efficiëntere, beter bestuurde en veiligere delegatie mogelijk te maken.

Sunil PrakashWed, 11 Ma🤖 cs.AI

GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

Dit paper betoogt dat generatieve AI geen alomvattende oplossing is voor kwalitatief onderzoek in software engineering, maar dat de toepassing ervan zorgvuldig moet worden afgestemd op specifieke onderzoekstrategieën en data om de beloften en valkuilen van deze technologie te begrijpen.

Neil A. Ernst, Christoph TreudeWed, 11 Ma💻 cs

Arbiter: Detecting Interference in LLM Agent System Prompts

Dit paper introduceert Arbiter, een framework dat formele regels en multi-model LLM-scouring combineert om interferentiepatronen in systeemprompts van coderingsagenten te detecteren, waarbij het verschillende kwetsbaarheden blootlegt die vaak worden gemist door traditionele methoden.

Tony MasonWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

Hoewel AI-agenten microservices kunnen genereren met code van hoge kwaliteit en sterke API-contracten, toont dit onderzoek aan dat onvolledige consistentie en de noodzaak van menselijk toezicht volledige autonomie nog niet mogelijk maken.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Dit paper introduceert Pichay, een transparante proxy die demand paging en virtueel geheugenconcepten toepast op LLM-contextvensters om structurele verspilling te elimineren en de contextgebruik met tot 93% te verminderen door verouderde inhoud dynamisch te vervangen en alleen relevante informatie in het dure 'cache'-geheugen te houden.

Tony MasonWed, 11 Ma🤖 cs.AI