CovertComBench: A First Domain-Specific Testbed for LLMs in Wireless Covert Communication
O artigo apresenta o CovertComBench, um novo *benchmark* específico para avaliar a capacidade de Modelos de Linguagem Grandes (LLMs) em comunicações covert sem fio, revelando que, embora eficazes em conceitos e geração de código, eles ainda falham em realizar as derivações matemáticas complexas necessárias para garantir a segurança, indicando a necessidade de ferramentas externas para sistemas de IA confiáveis.