TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Este trabalho propõe o TAO-Attack, um novo método de jailbreak baseado em otimização que utiliza uma função de perda em duas etapas e uma estratégia de otimização de tokens com prioridade de direção para superar as limitações dos métodos atuais, alcançando taxas de sucesso superiores e até 100% em diversos cenários com grandes modelos de linguagem.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Este artigo introduz um benchmark de matriz de troca que revela que a alternância de modelos em sistemas LLM de múltiplas voltas gera uma deriva de desempenho significativa e previsível devido a incompatibilidades de contexto, estabelecendo a robustez na troca como uma dimensão crítica de confiabilidade operacional que requer monitoramento específico.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Este artigo propõe um método de Geração Aumentada por Recuperação (RAG) consciente de tipos e fechamento de dependências, que constrói uma base de conhecimento estruturada para traduzir requisitos em linguagem natural em modelos de otimização industrial executáveis, superando as limitações de falhas de compilação e alucinações estruturais observadas em abordagens convencionais.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

O artigo apresenta o BeyondSWE, um novo benchmark abrangente que revela lacunas significativas na capacidade dos agentes de código atuais para lidar com tarefas além de correções de bugs em repositórios únicos, além de introduzir o framework SearchSWE para investigar os efeitos da busca externa, demonstrando que tal augmentação resulta em ganhos inconsistentes e destaca a dificuldade de emular fluxos de trabalho de desenvolvimento que intercalam busca e raciocínio.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

O artigo apresenta o MOSAIC, um framework de pós-treinamento que alinha modelos de linguagem agentes para o uso seguro de ferramentas em múltiplos passos, estruturando a inferência em um ciclo de planejamento, verificação e ação ou recusa, e utilizando aprendizado por reforço baseado em preferências para reduzir significativamente comportamentos nocivos e vazamentos de privacidade sem comprometer o desempenho em tarefas benignas.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL