cs.SE artigos | Gist.Science

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

O artigo apresenta o Lockbox, uma arquitetura de Confiança Zero projetada para garantir o processamento seguro de cargas de trabalho sensíveis na nuvem, aplicando verificação explícita de confiança, isolamento forte e acesso de menor privilégio para permitir o uso de ferramentas avançadas, como IA, sem comprometer a segurança.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Este artigo apresenta um pipeline automatizado que utiliza Grandes Modelos de Linguagem (LLMs) para detectar e analisar as causas raiz de testes flutuantes em software quântico, expandindo um conjunto de dados existente e demonstrando que o modelo Google Gemini alcança alta precisão na classificação e identificação de falhas.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

The Future of Software Engineering Conferences: A New Zealand Perspective

Este artigo analisa os desafios enfrentados por pesquisadores da Nova Zelândia em conferências de engenharia de software, como custos de viagem e barreiras logísticas, e propõe estratégias como participação híbrida e reformas de governança para promover uma inclusão global mais equitativa.

Kelly Blincoe, Sherlock A. Licorish, Judith Fuchs, Amjed TahirWed, 11 Ma💻 cs

Synergistic Directed Execution and LLM-Driven Analysis for Zero-Day AI-Generated Malware Detection

Este artigo apresenta um novo framework híbrido que combina execução concolica, priorização guiada por LLM e classificação baseada em aprendizado profundo para detectar malware gerado por IA com garantias formais de correção, alcançando uma precisão superior a 97,5% em ameaças de dia zero.

George Edwards, Mahdi EslamimehrWed, 11 Ma💻 cs

Class Model Generation from Requirements using Large Language Models

Este artigo investiga a capacidade de modelos de linguagem avançados (como GPT-5 e Claude Sonnet 4.0) de gerar automaticamente diagramas de classes UML a partir de requisitos em linguagem natural, propondo um framework de validação dual que combina julgamento por IA e avaliação humana para demonstrar que tais modelos produzem diagramas estruturalmente coerentes e semanticamente significativos com alta alinhamento às avaliações de especialistas.

Jackson Nguyen, Rui En Koe, Fanyu Wang, Chetan Arora, Alessio FerrariWed, 11 Ma💻 cs

AgenticCyOps: Securing Multi-Agentic AI Integration in Enterprise Cyber Operations

O artigo apresenta o AgenticCyOps, um quadro de segurança que define princípios defensivos e limites de confiança para mitigar riscos de integração em sistemas multiagentes empresariais, demonstrando uma redução significativa de superfícies de ataque em fluxos de trabalho de operações de cibersegurança.

Shaswata Mitra, Raj Patel, Sudip Mittal, Md Rayhanur Rahman, Shahram RahimiWed, 11 Ma💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

O artigo apresenta o ToolRosetta, um quadro unificado que automatiza a tradução de repositórios de código de código aberto em ferramentas compatíveis com o Protocolo de Contexto de Modelo (MCP), permitindo que agentes de modelos de linguagem de grande escala executem tarefas complexas com intervenção humana mínima e garantias de segurança.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong RuiWed, 11 Ma💻 cs

Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

Este estudo de caso demonstra que é possível gerar especificações de requisitos de sistema sintéticas e realistas com o ChatGPT sem acesso a dados reais, embora a avaliação automática por LLMs não substitua completamente a necessidade de uma avaliação expert devido a contradições e deficiências identificadas.

Alex R. Mattukat, Florian M. Braun, Horst LichterWed, 11 Ma💻 cs

Declarative Scenario-based Testing with RoadLogic

O artigo apresenta o RoadLogic, uma ferramenta de código aberto que utiliza Programação em Conjuntos de Respostas, planejamento de movimento e monitoramento baseado em especificações para transformar automaticamente definições declarativas de cenários (OpenSCENARIO) em simulações executáveis e verificadas para testes de veículos autônomos.

Ezio Bartocci, Alessio Gambi, Felix Gigler, Cristinel Mateis, Dejan NičkovicWed, 11 Ma🤖 cs.AI

Experience Report on the Adaptable Integration of Requirements Engineering Courses into Curricula for Professionals

Este artigo relata a experiência no desenvolvimento de três currículos de engenharia de software para profissionais e descreve uma abordagem sistemática baseada no mapeamento de conteúdo para integrar cursos de engenharia de requisitos, propondo princípios fundamentais para essa adaptação.

Oleksandr Kosenkov, Konstantin Blaschke, Tony Gorschek, Michael Unterkalmsteiner, Oleksandr Adamov, Davide FucciWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Este artigo relata a síntese e busca feedback sobre o Modelo de Artefatos para Engenharia de Requisitos Regulatórios (AM4RRE), uma abordagem proposta para integrar a conformidade por projeto ao ciclo de vida de desenvolvimento de software, superando os desafios de coordenação entre múltiplas perspectivas e a falta de processos sistemáticos na indústria.

Oleksandr KosenkovWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

O artigo apresenta o EmbC-Test, uma solução baseada em RAG e LLMs que automatiza a geração de testes para software embarcado em C, reduzindo o tempo de teste manual em até 66% e alcançando uma taxa de sucesso de 85% na validação em tempo de execução.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Preparing Students for AI-Driven Agile Development: A Project-Based AI Engineering Curriculum

Este artigo apresenta um currículo de engenharia de IA baseado em projetos que integra práticas ágeis e ferramentas de IA para preparar estudantes de engenharia de software, demonstrando por meio de um estudo de caso que essa abordagem integrada desenvolve competências práticas, embora exija adaptações no ensino e verificação oral para garantir a aprendizagem fundamental.

Andreas Rausch, Stefan Wittek, Tobias Geger, David InkermannWed, 11 Ma💻 cs

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

O artigo apresenta o EsoLang-Bench, um novo benchmark que utiliza linguagens de programação esotéricas para avaliar o raciocínio genuíno de modelos de linguagem, revelando que, apesar de seu alto desempenho em tarefas de codificação convencionais, eles falham drasticamente ao aprender novas linguagens a partir de documentação, indicando que seus resultados anteriores derivam mais de memorização do que de capacidade de raciocínio transferível.

Aman Sharma, Paras ChopraWed, 11 Ma🤖 cs.AI

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Este estudo empírico identifica e classifica os "maus odores de interação" em tarefas de geração de código colaborativa entre humanos e LLMs, propondo o framework InCE para mitigar essas falhas e melhorar significativamente a taxa de sucesso das tarefas.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida YeWed, 11 Ma💻 cs

Towards a Neural Debugger for Python

Este trabalho apresenta os "neural debuggers", modelos de linguagem que emulam depuradores tradicionais permitindo controle interativo sobre a execução de código Python, superando as limitações dos interpretadores neurais existentes e estabelecendo as bases para sistemas de codificação autônomos mais avançados.

Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel SynnaeveWed, 11 Ma🤖 cs.AI

MORCoRA: Multi-Objective Refactoring Recommendation Considering Review Availability

O artigo apresenta o MORCoRA, uma técnica de busca multiobjetivo que recomenda sequências de refatoração para melhorar a qualidade do código e preservar a semântica, ao mesmo tempo que identifica revisores disponíveis e com expertise adequada para garantir a aprovação rápida da revisão.

Lei Chen, Shinpei HayashiTue, 10 Ma💻 cs

The Future of Software Testing: AI-Powered Test Case Generation and Validation

Este artigo explora o potencial transformador da inteligência artificial na geração e validação de casos de teste, destacando como essa tecnologia supera os desafios dos métodos tradicionais ao aumentar a eficiência, a cobertura e a confiabilidade dos lançamentos de software, ao mesmo tempo em que aborda os obstáculos relacionados à qualidade dos dados e à supervisão humana.

Mohammad Baqar, Rajat KhandaTue, 10 Ma💻 cs

Security and Quality in LLM-Generated Code: A Multi-Language, Multi-Model Analysis

Este artigo analisa a segurança e a qualidade do código gerado por modelos de linguagem de grande escala (LLMs) em múltiplas linguagens, revelando que, embora a automação seja eficaz, os modelos frequentemente falham ao adotar recursos de segurança modernos e ainda empregam métodos desatualizados, especialmente em C++ e Java 17.

Mohammed Kharma, Soohyeon Choi, Mohammed AlKhanafseh, David MohaisenTue, 10 Ma🤖 cs.LG

Engineering Systems for Data Analysis Using Interactive Structured Inductive Programming

O artigo apresenta o iProg, uma ferramenta de Programação Indutiva Estruturada Interativa que utiliza um protocolo de comunicação bidirecional para colaborar com especialistas humanos e modelos de linguagem na decomposição de tarefas de análise de dados em diagramas de fluxo e geração de código, demonstrando superioridade em desempenho, qualidade e velocidade de desenvolvimento em comparação com alternativas Low Code/No Code em colaborações científicas.

Shraddha Surana, Ashwin Srinivasan, Michael BainTue, 10 Ma💻 cs

← Anterior Próximo →