Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Este artigo investiga estratégias de rotulagem semântica para questionários de avaliação de riscos de terceiros, demonstrando que um pipeline híbrido semi-supervisionado (SSSL) que combina clustering, rotulagem por LLM em subconjuntos representativos e propagação de rótulos pode melhorar a recuperação de controles de segurança com menor custo e uso de LLM em comparação com métodos diretos.

Ali Nour Eldin, Mohamed Sellami, Walid Gaaloul + 1 more2026-03-05🤖 cs.AI

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Este estudo demonstra que os Modelos de Raciocínio Avançado (LRMs) não superam consistentemente os modelos não dedutivos em tarefas de Teoria da Mente, revelando que o raciocínio lento pode ser prejudicial e que esses modelos frequentemente dependem de atalhos de correspondência de opções em vez de inferência genuína, indicando a necessidade de novas capacidades específicas para o raciocínio social.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Overcoming the Combinatorial Bottleneck in Symmetry-Driven Crystal Structure Prediction

Os autores propõem um novo quadro generativo baseado em inteligência artificial que combina modelos de linguagem e uma busca heurística eficiente para prever estruturas cristalinas diretamente da composição química, superando os gargalos combinatórios e a dependência de bancos de dados existentes para explorar novos materiais com rigor simétrico.

Shi Yin, Jinming Mu, Xudong Zhu + 1 more2026-03-05🔬 cond-mat.mtrl-sci

From Agent-Only Social Networks to Autonomous Scientific Research: Lessons from OpenClaw and Moltbook, and the Architecture of ClawdLab and Beach.Science

Este estudo analisa o ecossistema de interação entre agentes autônomos OpenClaw e Moltbook para propor as plataformas ClawdLab e Beach.Science, que implementam uma arquitetura de terceiro nível composta e verificável para superar as falhas atuais em sistemas de pesquisa científica autônoma.

Lukas Weidener, Marko Brkić, Phillip Lee + 3 more2026-03-05🤖 cs.AI

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

O artigo apresenta o PhysMem, um framework de memória que permite a planejadores robóticos baseados em modelos de linguagem e visão aprenderem princípios físicos durante a interação em tempo de execução, sem atualizar os parâmetros do modelo, ao registrar experiências, gerar hipóteses e validá-las por meio de interações direcionadas antes de aplicá-las para melhorar o desempenho em tarefas de manipulação.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

O artigo propõe o Spatial Credit Redistribution (SCR), um método de inferência sem treinamento que mitiga as alucinações em Modelos Visão-Linguagem ao redistribuir a atenção espacial dos patches dominantes para vizinhanças contextuais, reduzindo significativamente erros de geração em múltiplos benchmarks sem comprometer a qualidade do texto ou a latência.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

Causal Identification from Counterfactual Data: Completeness and Bounding Results

Este artigo apresenta o algoritmo CTFIDU+ para identificar consultas contrafactuais a partir de dados de distribuições de nível 3 realizáveis, provando sua completude, estabelecendo os limites teóricos da inferência causal exata e derivando novos limites analíticos para quantidades não identificáveis que são validados empiricamente como eficazes para reduzir a incerteza.

Arvind Raghavan, Elias Bareinboim2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

Este artigo apresenta o GenAI Workbench, um framework conceitual de Engenharia de Sistemas Baseada em Modelos (MBSE) que integra princípios de engenharia de sistemas ao fluxo de trabalho de design através de uma plataforma PLM de código aberto, utilizando inteligência artificial para extrair requisitos de documentos e gerar automaticamente arquiteturas de sistema a partir de dados multimodais, visando criar um fio digital unificado e reduzir riscos de integração.

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Este estudo avalia a sensibilidade a prompts e a consistência de respostas de modelos de linguagem open-source pequenos em cenários clínicos, revelando que a alta consistência não garante precisão e identificando o Llama 3.2 como o modelo mais equilibrado para implantação em ambientes de recursos limitados.

Shravani Hariprasad2026-03-05🤖 cs.AI

The Sentience Readiness Index: A Preliminary Framework for Measuring National Preparedness for the Possibility of Artificial Sentience

Este artigo apresenta o Índice de Prontidão para Sentiência (SRI), uma nova métrica preliminar que avalia a preparação de 31 jurisdições para o potencial surgimento de inteligência artificial senciente, revelando que nenhuma nação possui atualmente infraestrutura institucional ou cultural adequada para lidar com essa possibilidade, apesar de avanços na pesquisa científica.

Tony Rost2026-03-05🤖 cs.AI

Extracting Training Dialogue Data from Large Language Model based Task Bots

Este trabalho investiga os riscos de privacidade em sistemas de diálogo orientados a tarefas baseados em Grandes Modelos de Linguagem (LLMs), propondo e validando novos ataques de extração de dados que exploram a memorização do modelo para recuperar milhares de rótulos de estados de diálogo com alta precisão, ao mesmo tempo que analisa os fatores que influenciam essa memorização e discute estratégias de mitigação.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI