Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

Il documento presenta Lockbox, un'architettura Zero Trust progettata per garantire l'elaborazione sicura di carichi di lavoro cloud sensibili attraverso verifica esplicita, isolamento rigoroso e controllo degli accessi basato su policy, permettendo alle aziende di adottare funzionalità avanzate come l'elaborazione assistita dall'IA senza compromettere la sicurezza.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Questo lavoro presenta una pipeline automatizzata che utilizza modelli linguistici di grandi dimensioni (LLM) per rilevare e analizzare le cause profonde dei test flaky nel software quantistico, espandendo un dataset esistente e dimostrando l'efficacia di modelli come Google Gemini nel classificare tali problemi con elevata precisione.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection

Questo articolo presenta un nuovo framework ibrido che combina esecuzione concolica guidata da modelli linguistici (LLM) e classificazione basata su deep learning per rilevare con garanzie di correttezza e completezza malware zero-day generati dall'intelligenza artificiale, superando significativamente le prestazioni dei metodi di difesa convenzionali.

George Edwards, Mahdi EslamimehrWed, 11 Ma💻 cs

Class Model Generation from Requirements using Large Language Models

Questo studio valuta l'efficacia di modelli linguistici avanzati nella generazione automatica di diagrammi di classe UML a partire da requisiti testuali, proponendo un framework di validazione duale che combina valutazioni umane e automatizzate per dimostrare la loro affidabilità sia come assistenti di modellazione che come giudici nei flussi di lavoro di ingegneria dei requisiti.

Jackson Nguyen, Rui En Koe, Fanyu Wang, Chetan Arora, Alessio FerrariWed, 11 Ma💻 cs

AgenticCyOps: Securing Multi-Agentic AI Integration in Enterprise Cyber Operations

Il paper introduce AgenticCyOps, un quadro di sicurezza architetturale che protegge l'integrazione di sistemi multi-agente basati su LLM nelle operazioni informatiche aziendali definendo confini di fiducia e cinque principi difensivi per mitigare le superfici di attacco legate all'orchestrazione degli strumenti e alla gestione della memoria.

Shaswata Mitra, Raj Patel, Sudip Mittal, Md Rayhanur Rahman, Shahram RahimiWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Il paper presenta ToolRosetta, un framework unificato che automatizza la conversione di repository di codice open-source in strumenti MCP compatibili per agenti LLM, riducendo lo sforzo umano e migliorando le prestazioni dei task attraverso un'ispezione di sicurezza integrata.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

Questo articolo descrive l'esperienza maturata nello sviluppo di tre curricula di ingegneria del software per professionisti e illustra un approccio sistematico basato sul mappaggio dei contenuti per integrare efficacemente corsi di ingegneria dei requisiti in programmi modulari e dinamici.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide FucciWed, 11 Ma💻 cs

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Il paper introduce EsoLang-Bench, un nuovo benchmark basato su linguaggi di programmazione esotici privi di incentivi economici per l'addestramento, che rivela come i modelli linguistici di frontiera, nonostante le alte prestazioni sui test standard, falliscano nel dimostrare un ragionamento genuino quando devono apprendere nuovi linguaggi tramite documentazione e feedback.

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Questo studio empirico introduce la prima tassonomia degli "odori di interazione" nelle collaborazioni di generazione codice uomo-LLM, analizza la loro distribuzione su sei modelli principali e propone il framework multi-agente InCE per mitigare tali problematiche, migliorando significativamente il successo dei compiti e la qualità delle interazioni multi-turno.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida YeWed, 11 Ma💻 cs

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Questo studio analizza la sicurezza e la qualità del codice generato da modelli linguistici su diverse lingue di programmazione, rivelando che, sebbene l'automazione sia efficace, molti modelli non adottano le moderne funzionalità di sicurezza e ricorrono ancora a metodi obsoleti, sottolineando la necessità di migliorare gli LLM per integrare le migliori pratiche emergenti.

Mohammed Kharma, Soohyeon Choi, Mohammed AlKhanafseh, David MohaisenTue, 10 Ma🤖 cs.LG

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

Il paper presenta iProg, uno strumento di programmazione induttiva strutturata interattiva che, sfruttando un protocollo di comunicazione bidirezionale tra umani e modelli linguistici per decomporre i compiti in diagrammi di flusso dati e generare codice verificato, permette di costruire sistemi di analisi dati scientifici con qualità superiore e tempi di sviluppo drasticamente ridotti rispetto alle alternative No Code.

Shraddha Surana, Ashwin Srinivasan, Michael BainTue, 10 Ma💻 cs