cs.SE articoli | Gist.Science

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

Il documento presenta Lockbox, un'architettura Zero Trust progettata per garantire l'elaborazione sicura di carichi di lavoro cloud sensibili attraverso verifica esplicita, isolamento rigoroso e controllo degli accessi basato su policy, permettendo alle aziende di adottare funzionalità avanzate come l'elaborazione assistita dall'IA senza compromettere la sicurezza.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Questo lavoro presenta una pipeline automatizzata che utilizza modelli linguistici di grandi dimensioni (LLM) per rilevare e analizzare le cause profonde dei test flaky nel software quantistico, espandendo un dataset esistente e dimostrando l'efficacia di modelli come Google Gemini nel classificare tali problemi con elevata precisione.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

The Future of Software Engineering Conferences: A New Zealand Perspective

Questo articolo analizza le barriere che ostacolano la partecipazione dei ricercatori neozelandesi alle conferenze di ingegneria del software, proponendo strategie come l'adozione di modalità ibride e riforme organizzative per garantire una partecipazione globale più equa.

Kelly Blincoe, Sherlock A. Licorish, Judith Fuchs, Amjed TahirWed, 11 Ma💻 cs

Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection

Questo articolo presenta un nuovo framework ibrido che combina esecuzione concolica guidata da modelli linguistici (LLM) e classificazione basata su deep learning per rilevare con garanzie di correttezza e completezza malware zero-day generati dall'intelligenza artificiale, superando significativamente le prestazioni dei metodi di difesa convenzionali.

George Edwards, Mahdi EslamimehrWed, 11 Ma💻 cs

Class Model Generation from Requirements using Large Language Models

Questo studio valuta l'efficacia di modelli linguistici avanzati nella generazione automatica di diagrammi di classe UML a partire da requisiti testuali, proponendo un framework di validazione duale che combina valutazioni umane e automatizzate per dimostrare la loro affidabilità sia come assistenti di modellazione che come giudici nei flussi di lavoro di ingegneria dei requisiti.

Jackson Nguyen, Rui En Koe, Fanyu Wang, Chetan Arora, Alessio FerrariWed, 11 Ma💻 cs

AgenticCyOps: Securing Multi-Agentic AI Integration in Enterprise Cyber Operations

Il paper introduce AgenticCyOps, un quadro di sicurezza architetturale che protegge l'integrazione di sistemi multi-agente basati su LLM nelle operazioni informatiche aziendali definendo confini di fiducia e cinque principi difensivi per mitigare le superfici di attacco legate all'orchestrazione degli strumenti e alla gestione della memoria.

Shaswata Mitra, Raj Patel, Sudip Mittal, Md Rayhanur Rahman, Shahram RahimiWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Il paper presenta ToolRosetta, un framework unificato che automatizza la conversione di repository di codice open-source in strumenti MCP compatibili per agenti LLM, riducendo lo sforzo umano e migliorando le prestazioni dei task attraverso un'ispezione di sicurezza integrata.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

Questo studio dimostra che, sebbene ChatGPT possa generare specifiche di requisiti di sistema sintetiche realistiche fino al 62% secondo gli esperti, l'uso esclusivo di valutazioni basate su modelli linguistici non può sostituire le revisioni approfondite degli esperti a causa di allucinazioni e contraddizioni intrinseche.

Alex R. Mattukat, Florian M. Braun, Horst LichterWed, 11 Ma💻 cs

Declarative Scenario-based Testing with RoadLogic

RoadLogic è un sistema open-source che colma il divario tra le specifiche dichiarative OpenSCENARIO e le simulazioni eseguibili per i veicoli autonomi, utilizzando la programmazione logica a insiemi di risposte e la pianificazione del movimento per generare automaticamente scenari realistici e conformi alle specifiche.

Ezio Bartocci, Alessio Gambi, Felix Gigler, Cristinel Mateis, Dejan NičkovicWed, 11 Ma🤖 cs.AI

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

Questo articolo descrive l'esperienza maturata nello sviluppo di tre curricula di ingegneria del software per professionisti e illustra un approccio sistematico basato sul mappaggio dei contenuti per integrare efficacemente corsi di ingegneria dei requisiti in programmi modulari e dinamici.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide FucciWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Questo articolo presenta il modello AM4RRE, un approccio basato su artefatti e prospettive multiple per integrare sistematicamente l'ingegneria dei requisiti normativi nel ciclo di vita dello sviluppo software, al fine di realizzare una conformità "by design" e raccogliere feedback per la fase finale di uno studio dottorale.

Oleksandr KosenkovWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Il paper presenta EmbC-Test, un pipeline basato su RAG che utilizza modelli linguistici per automatizzare la generazione di test per software embedded in C, riducendo i tempi di verifica fino al 66% e ottenendo un'alta percentuale di test sintatticamente corretti e validi.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Preparing Students for AI-Driven Agile Development: A Project-Based AI Engineering Curriculum

Questo articolo presenta un curriculum di ingegneria del software basato su progetti che integra pratiche agili e strumenti di intelligenza artificiale per preparare gli studenti allo sviluppo software guidato dall'AI, fornendo evidenze preliminari sulla sua efficacia nel promuovere competenze pratiche e riflessive.

Andreas Rausch, Stefan Wittek, Tobias Geger, David InkermannWed, 11 Ma💻 cs

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Il paper introduce EsoLang-Bench, un nuovo benchmark basato su linguaggi di programmazione esotici privi di incentivi economici per l'addestramento, che rivela come i modelli linguistici di frontiera, nonostante le alte prestazioni sui test standard, falliscano nel dimostrare un ragionamento genuino quando devono apprendere nuovi linguaggi tramite documentazione e feedback.

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Questo studio empirico introduce la prima tassonomia degli "odori di interazione" nelle collaborazioni di generazione codice uomo-LLM, analizza la loro distribuzione su sei modelli principali e propone il framework multi-agente InCE per mitigare tali problematiche, migliorando significativamente il successo dei compiti e la qualità delle interazioni multi-turno.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida YeWed, 11 Ma💻 cs

Towards a Neural Debugger for Python

Il paper introduce i "neural debugger", modelli linguistici addestrati a emulare i debugger tradizionali per prevedere l'esecuzione del codice Python in modo interattivo e condizionale, aprendo la strada a sistemi di coding autonomi più avanzati.

Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel SynnaeveWed, 11 Ma🤖 cs.AI

MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability

Il paper presenta MORCoRA, una tecnica di ricerca multi-obiettivo che raccomanda sequenze di refactoring per migliorare la qualità del codice e preservarne la semantica, tenendo conto simultaneamente della disponibilità e dell'esperienza dei revisori necessari per approvarle.

Lei Chen, Shinpei HayashiTue, 10 Ma💻 cs

The Future of Software Testing: AI-Powered Test Case Generation and Validation

Questo articolo esplora come l'intelligenza artificiale trasformi il testing del software automatizzando la generazione e la validazione dei casi di test, migliorando così efficienza, copertura e affidabilità delle release, pur affrontando le sfide legate alla qualità dei dati e alla necessità di un equilibrio tra automazione e supervisione umana.

Mohammad Baqar, Rajat KhandaTue, 10 Ma💻 cs

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Questo studio analizza la sicurezza e la qualità del codice generato da modelli linguistici su diverse lingue di programmazione, rivelando che, sebbene l'automazione sia efficace, molti modelli non adottano le moderne funzionalità di sicurezza e ricorrono ancora a metodi obsoleti, sottolineando la necessità di migliorare gli LLM per integrare le migliori pratiche emergenti.

Mohammed Kharma, Soohyeon Choi, Mohammed AlKhanafseh, David MohaisenTue, 10 Ma🤖 cs.LG

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

Il paper presenta iProg, uno strumento di programmazione induttiva strutturata interattiva che, sfruttando un protocollo di comunicazione bidirezionale tra umani e modelli linguistici per decomporre i compiti in diagrammi di flusso dati e generare codice verificato, permette di costruire sistemi di analisi dati scientifici con qualità superiore e tempi di sviluppo drasticamente ridotti rispetto alle alternative No Code.

Shraddha Surana, Ashwin Srinivasan, Michael BainTue, 10 Ma💻 cs

← Precedente Successivo →