cs.SE Arbeiten | Gist.Science

Process-Centric Analysis of Agentic Software Systems

Die Arbeit stellt Graphectory vor, ein graphenbasiertes Framework zur prozessorientierten Analyse agenter Softwaresysteme, das nicht nur tiefere Einblicke in deren reasoning-Strategien ermöglicht, sondern durch Echtzeit-Überwachung und Interventionen die Lösungsrate von SWE-bench-Problemen signifikant steigert.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Der Artikel stellt DevBench vor, einen datengestützten Benchmark, der große Sprachmodelle anhand von 1.800 realistischen Code-Vervollständigungsaufgaben aus Entwickler-Telemetriedaten bewertet, um deren praktische Nützlichkeit und ökologische Validität über traditionelle Metriken hinaus zu analysieren.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Diese Studie zeigt, dass spektrale Metriken, die aus strukturellen Netzwerken von Anforderungstexten abgeleitet werden, den Integrationsaufwand mit einer Korrelation von über 0,95 präziser vorhersagen können als herkömmliche strukturelle Kennzahlen.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Das Paper stellt GraphSkill vor, ein hierarchisches Retrieval-Augmented-Coding-Framework mit einem selbst-debuggenden Agenten, das durch die Ausnutzung der Dokumentenhierarchie und die Generierung von Testfällen die Genauigkeit und Kosteneffizienz bei komplexen Graphen-Reasoning-Aufgaben verbessert.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Das Paper stellt ResearchEnvBench vor, einen Benchmark, der die Fähigkeit autonomer Agenten bewertet, komplexe Ausführungsumgebungen für Forschungscode zu synthetisieren, und dabei erhebliche Defizite aktueller State-of-the-Art-Modelle bei der Abhängigkeitsauflösung und Versionskonfiguration aufzeigt.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Diese Studie charakterisiert Fehler in agenter KI durch eine empirische Analyse von über 13.000 Issues aus Open-Source-Projekten, die zur Entwicklung einer validierten Taxonomie von 37 Fehlertypen, deren Symptomen und Ursachen führt und dabei häufige Fehlermuster wie die Diskrepanz zwischen probabilistischen LLM-Ausgaben und deterministischen Schnittstellen aufdeckt.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

Die Studie stellt mit PVBench einen neuen Benchmark vor und zeigt, dass über 40 % der von aktuellen automatischen Reparatur-Systemen als erfolgreich eingestuften Patches bei Berücksichtigung zusätzlicher Semantik-Tests (PoC⁺) versagen, was auf eine erhebliche Überschätzung der Erfolgsraten und Verbesserungsbedarf in der Ursachenanalyse sowie der Einhaltung von Spezifikationen hinweist.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

A Declarative Framework for Hand-Crafted Mutation Analysis and Management

Die Autoren stellen mit Marauder ein deklaratives Framework vor, das durch die Definition einer Mutationsalgebra und eine verlustfreie Konversionspipeline die Verwaltung und Analyse handgefertigter Mutationen über verschiedene Repräsentationen hinweg vereinheitlicht und so die Effizienz sowie Ausdruckskraft von Mutationsexperimenten verbessert.

Alperen KelesTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Diese Studie stellt einen multidimensionalen Evaluierungsrahmen vor, der zeigt, dass zwar Small Language Models unter 3 Milliarden Parametern für die Generierung von Architekturentscheidungen stark von Fine-Tuning profitieren, jedoch erst Modelle oberhalb dieser Schwelle robuste Zero-Shot-Fähigkeiten aufweisen und eine hohe semantische Vielfalt oft mit Halluzinationen einhergeht.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Diese Forschungsarbeit stellt ein hybrides Learning-to-Rank-System vor, das mithilfe von Deep Learning und Social-Context-Embeddings Stack-Overflow-Daten analysiert, um Entwicklern bei der Suche nach Lösungen für Softwarefehler zu helfen und dabei eine Trefferquote von nahezu 78 % für die zehn besten Antworten erreicht.

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Eine empirische Studie an vier Modellen und fünf Prompting-Regimen zeigt, dass deploymentbedingte Einschränkungen die Halluzination von Zitaten in geschlossenen Umgebungen nicht verhindern, sondern die Verifizierbarkeit von Referenzen drastisch senken, was eine nachträgliche Überprüfung vor der Nutzung in der Softwaretechnik zwingend erforderlich macht.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

Die Arbeit stellt Echo vor, einen Agenten zur automatischen Generierung von Issue-Reproduktions-Tests, der durch graphenbasierte Kontextrecherche, automatische Testausführung mit Rückmeldung sowie die Erzeugung von Patches einen neuen State-of-the-Art mit einer Erfolgsrate von 66,28 % auf dem SWT-Bench Verified erreicht.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

Diese explorative Studie zeigt, dass sich Regressionstests in verteilten Teams durch eine verstärkte Abhängigkeit von Dokumentation, Automatisierung und Tool-Integration sowie standardisierten Kommunikationsmechanismen an die Anforderungen der asynchronen Zusammenarbeit anpassen, wobei die menschliche Kollaboration und die digitale Infrastruktur als prägende Faktoren für die Qualitätssicherung fungieren.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

Diese systematische Übersichtsarbeit untersucht, wie Empathie in der Softwaretechnik-Ausbildung gelehrt und integriert wird, und zeigt, dass sie sich von einer weichen Fähigkeit zu einem messbaren pädagogischen Konzept entwickelt, das durch strukturierte Lehrmethoden Zusammenarbeit, ethisches Bewusstsein und nutzerzentriertes Design fördert.

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Diese Studie führt die erste umfassende Untersuchung durch, die zeigt, dass graphbasierte Code-Repräsentationen im Vergleich zu anderen Ansätzen die Genauigkeit bei der automatisierten Bewertung der Patch-Korrektheit signifikant verbessern und somit die Wirksamkeit von Programmkorrektur-Tools erhöhen.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Die Arbeit stellt AgentRaft vor, ein automatisiertes Framework, das mithilfe von Programmanalyse, semantischer Reasoning und einem auf Datenschutzgesetzen basierenden Mehr-LLM-Voting-Komitee das neuartige Risiko der Datenüberexposition in LLM-Agenten effektiv erkennt und dabei eine hohe Genauigkeit sowie eine Abdeckung von 99 % mit nur 150 Prompts erreicht.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Die Arbeit stellt KCoEvo vor, ein durch Wissensgraphen erweitertes Framework, das die Migration von Code durch eine zweistufige Strategie aus Pfadwiedergewinnung und pfadbasiertem Code-Generierung verbessert, um die Herausforderungen durch sich entwickelnde APIs zu bewältigen.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

Die Studie zeigt, dass Code-Obfuskation die menschliche Programmvorhersage im Allgemeinen verlangsamt und die Genauigkeit verringert, wobei der Einfluss auf die Leistung je nach Programmiersprache (Python vs. JavaScript) variiert und erfahrene Entwickler eher durch sprachspezifische Vertrautheit als durch allgemeine Programmierfähigkeiten beeinflusst werden.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs

The role of team diversity in AI systems development

Diese Studie zeigt anhand von Interviews mit vier KI-Teams, dass Teamdiversität durch die Einbringung unterschiedlicher Perspektiven, Empathie und inklusiver Entscheidungsprozesse eine entscheidende Rolle bei der Identifizierung und Vermeidung von Bias in der KI-Entwicklung spielt.

Ronnie de Souza Santos, Maria Teresa Baldassarre, Cleyton MagalhaesTue, 10 Ma💻 cs

IOTEL: A Tool for Generating IoT-enriched Object-Centric Event Logs

Das Paper stellt IOTEL vor, ein Werkzeug zur systematischen Generierung von IoT-angereicherten objektzentrierten Ereignisprotokollen (OCEL), das die Integration von IoT-Daten in bestehende Prozessprotokolle ermöglicht und so die Analyse IoT-verbesserter Geschäftsprozesse unterstützt.

Jia Wei, Xin Su, Chun OuyangTue, 10 Ma💻 cs

← Zurück Weiter →