cs.AI artigos | Gist.Science

Exploring Semantic Labeling Strategies for Third-Party Cybersecurity Risk Assessment Questionnaires

Este artigo investiga estratégias de rotulagem semântica para questionários de avaliação de riscos de terceiros, demonstrando que um pipeline híbrido semi-supervisionado (SSSL) que combina clustering, rotulagem por LLM em subconjuntos representativos e propagação de rótulos pode melhorar a recuperação de controles de segurança com menor custo e uso de LLM em comparação com métodos diretos.

Ali Nour Eldin, Mohamed Sellami, Walid Gaaloul + 1 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Este trabalho propõe o VRFT-Aug, um framework de ajuste fino por reforço visual para o domínio médico que, ao integrar estratégias de aprimoramento de percepção e raciocínio, supera os métodos tradicionais e oferece diretrizes práticas para o desenvolvimento de modelos confiáveis em aplicações de alto risco.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Este estudo demonstra que os Modelos de Raciocínio Avançado (LRMs) não superam consistentemente os modelos não dedutivos em tarefas de Teoria da Mente, revelando que o raciocínio lento pode ser prejudicial e que esses modelos frequentemente dependem de atalhos de correspondência de opções em vez de inferência genuína, indicando a necessidade de novas capacidades específicas para o raciocínio social.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Chimera: Neuro-Symbolic Attention Primitives for Trustworthy Dataplane Intelligence

O artigo apresenta o Chimera, um framework neuro-simbólico que mapeia aproximações de atenção linearizada e restrições simbólicas para primitivas de dataplane, permitindo inferência de tráfego em alta velocidade com garantias de confiabilidade e auditabilidade dentro das limitações de hardware de switches programáveis comerciais.

Rong Fu, Xiaowen Ma, Kun Liu + 9 more2026-03-05🤖 cs.AI

Overcoming the Combinatorial Bottleneck in Symmetry-Driven Crystal Structure Prediction

Os autores propõem um novo quadro generativo baseado em inteligência artificial que combina modelos de linguagem e uma busca heurística eficiente para prever estruturas cristalinas diretamente da composição química, superando os gargalos combinatórios e a dependência de bancos de dados existentes para explorar novos materiais com rigor simétrico.

Shi Yin, Jinming Mu, Xudong Zhu + 1 more2026-03-05🔬 cond-mat.mtrl-sci

JPmHC Dynamical Isometry via Orthogonal Hyper-Connections

O artigo propõe o JPmHC, um quadro de hiper-conexões que preserva a isometria dinâmica ao substituir conexões de identidade por misturadores lineares treináveis restritos a variedades ortogonais, resultando em maior estabilidade, eficiência de memória e desempenho superior em tarefas complexas como ARC-AGI.

Biswa Sengupta, Jinhua Wang, Leo Brunswic2026-03-05🤖 cs.AI

From Agent-Only Social Networks to Autonomous Scientific Research: Lessons from OpenClaw and Moltbook, and the Architecture of ClawdLab and Beach.Science

Este estudo analisa o ecossistema de interação entre agentes autônomos OpenClaw e Moltbook para propor as plataformas ClawdLab e Beach.Science, que implementam uma arquitetura de terceiro nível composta e verificável para superar as falhas atuais em sistemas de pesquisa científica autônoma.

Lukas Weidener, Marko Brkić, Phillip Lee + 3 more2026-03-05🤖 cs.AI

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

O artigo apresenta o PhysMem, um framework de memória que permite a planejadores robóticos baseados em modelos de linguagem e visão aprenderem princípios físicos durante a interação em tempo de execução, sem atualizar os parâmetros do modelo, ao registrar experiências, gerar hipóteses e validá-las por meio de interações direcionadas antes de aplicá-las para melhorar o desempenho em tarefas de manipulação.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

Maximin Share Guarantees via Limited Cost-Sensitive Sharing

Este artigo demonstra que a permissão de compartilhamento limitado e sensível a custos de bens indivisíveis restaura garantias de justiça do tipo Maximin Share (MMS), propondo novos algoritmos de alocação e o conceito de SMMS, ao mesmo tempo em que estabelece limites teóricos sobre a existência universal dessas alocações.

Hana Salavcova, Martin Černý, Arpita Biswas2026-03-05🤖 cs.AI

Dynamic Adversarial Reinforcement Learning for Robust Multimodal Large Language Models

O artigo apresenta o AOT-SFT e o framework de treinamento AOT, que utilizam um processo de auto-jogo entre um atacante de edição de imagens e um modelo defensor para gerar dados adversariais dinâmicos e melhorar a robustez perceptiva e reduzir alucinações em Modelos de Linguagem Multimodal (MLLMs).

Yicheng Bao, Xuhong Wang, Qiaosheng Zhang + 3 more2026-03-05🤖 cs.AI

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

O artigo propõe o Spatial Credit Redistribution (SCR), um método de inferência sem treinamento que mitiga as alucinações em Modelos Visão-Linguagem ao redistribuir a atenção espacial dos patches dominantes para vizinhanças contextuais, reduzindo significativamente erros de geração em múltiplos benchmarks sem comprometer a qualidade do texto ou a latência.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

Este artigo apresenta o AMA-Bench, um novo benchmark para avaliar a memória de longo prazo de agentes autônomos em aplicações reais, e propõe o AMA-Agent, um sistema que supera os métodos existentes ao incorporar um grafo de causalidade e recuperação aumentada por ferramentas.

Yujie Zhao, Boqin Yuan, Junbo Huang + 9 more2026-03-05🤖 cs.AI

Causal Identification from Counterfactual Data: Completeness and Bounding Results

Este artigo apresenta o algoritmo CTFIDU+ para identificar consultas contrafactuais a partir de dados de distribuições de nível 3 realizáveis, provando sua completude, estabelecendo os limites teóricos da inferência causal exata e derivando novos limites analíticos para quantidades não identificáveis que são validados empiricamente como eficazes para reduzir a incerteza.

Arvind Raghavan, Elias Bareinboim2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

Este artigo sistematiza o conhecimento existente sobre priorização de casos de teste por meio de uma revisão bibliográfica em cascata, propõe e avalia empiricamente um novo framework e uma família de métodos combinatórios que superam abordagens baseais e alcançam desempenho comparável ao estado da arte.

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

Este artigo apresenta o GenAI Workbench, um framework conceitual de Engenharia de Sistemas Baseada em Modelos (MBSE) que integra princípios de engenharia de sistemas ao fluxo de trabalho de design através de uma plataforma PLM de código aberto, utilizando inteligência artificial para extrair requisitos de documentos e gerar automaticamente arquiteturas de sistema a partir de dados multimodais, visando criar um fio digital unificado e reduzir riscos de integração.

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Este estudo avalia a sensibilidade a prompts e a consistência de respostas de modelos de linguagem open-source pequenos em cenários clínicos, revelando que a alta consistência não garante precisão e identificando o Llama 3.2 como o modelo mais equilibrado para implantação em ambientes de recursos limitados.

Shravani Hariprasad2026-03-05🤖 cs.AI

The Sentience Readiness Index: A Preliminary Framework for Measuring National Preparedness for the Possibility of Artificial Sentience

Este artigo apresenta o Índice de Prontidão para Sentiência (SRI), uma nova métrica preliminar que avalia a preparação de 31 jurisdições para o potencial surgimento de inteligência artificial senciente, revelando que nenhuma nação possui atualmente infraestrutura institucional ou cultural adequada para lidar com essa possibilidade, apesar de avanços na pesquisa científica.

Tony Rost2026-03-05🤖 cs.AI

Extracting Training Dialogue Data from Large Language Model based Task Bots

Este trabalho investiga os riscos de privacidade em sistemas de diálogo orientados a tarefas baseados em Grandes Modelos de Linguagem (LLMs), propondo e validando novos ataques de extração de dados que exploram a memorização do modelo para recuperar milhares de rótulos de estados de diálogo com alta precisão, ao mesmo tempo que analisa os fatores que influenciam essa memorização e discute estratégias de mitigação.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

Agentic Code Reasoning

O artigo apresenta a "raciocínio de código semi-formal", uma metodologia estruturada que permite a agentes de LLM analisar e verificar semântica de código sem execução, demonstrando ganhos consistentes de precisão em tarefas como verificação de patches, localização de falhas e resposta a perguntas sobre código.

Shubham Ugare, Satish Chandra2026-03-05🤖 cs.AI

← Anterior Próximo →