cs.AI artigos | Gist.Science

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

O artigo apresenta o TrustBench, um framework de verificação de confiança em tempo real que intervém antes da execução de ações de agentes autônomos, reduzindo ações prejudiciais em 87% através de plugins específicos de domínio com latência inferior a 200ms.

Tavishi Sharma, Vinayak Sharma, Pragya SharmaWed, 11 Ma🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

O RubiCap é um novo framework de aprendizado por reforço que utiliza rubricas escritas por LLMs para gerar sinais de recompensa estruturados e específicos, superando métodos supervisionados e anteriores de RL na geração de legendas densas de imagens e produzindo modelos de pré-treinamento mais robustos.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabalho propõe um framework de aumento de dados que aproveita a estrutura preservada em RTLs gerados por LLMs, mesmo quando funcionalmente imperfeitos, para treinar representações de netlist que superam a escassez de dados rotulados e generalizam bem para circuitos reais.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying WangWed, 11 Ma🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

O artigo propõe o GIAT, um novo modelo Transformer que integra priores geológicos ao mecanismo de atenção para melhorar a precisão, confiabilidade e interpretabilidade na identificação de litologia a partir de registros de poço.

Jie Li, Qishun Yang, Nuo LiWed, 11 Ma🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

O ZeroWBC é um novo framework que permite o controle visuomotor natural de humanoides, como o Unitree G1, aprendendo diretamente de vídeos em primeira pessoa de humanos e eliminando a necessidade de dados caros de teleoperação robótica.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

O artigo apresenta o AlphaEvolve, um agente de mutação de código baseado em LLM que, atuando como um único meta-algoritmo, estabeleceu novos limites inferiores para cinco números de Ramsey clássicos e recuperou com sucesso os limites conhecidos para todos os casos exatos.

Ansh Nagda, Prabhakar Raghavan, Abhradeep ThakurtaWed, 11 Ma🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabalho propõe um quadro de modelagem generativa baseada em física que incorpora a estocasticidade intrínseca do fluxo de tráfego através de um modelo Lighthill-Whitham-Richards com ruído browniano, permitindo a estimativa de distribuições de densidade, intervalos de credibilidade e medidas de risco de congestionamento.

Wuping XinWed, 11 Ma🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

O artigo apresenta o DuplexCascade, um pipeline cascata de fala para fala sem VAD que habilita diálogos em full-duplex com inteligência conversacional robusta, convertendo turnos longos em micro-turnos e utilizando tokens de controle especializados para coordenar a interação em tempo real.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

O artigo apresenta o Latent-DARM, um framework de comunicação em espaço latente que integra modelos de difusão discreta (para planejamento) e modelos autorregressivos (para execução), superando as limitações de interfaces baseadas em texto e alcançando alto desempenho em tarefas de raciocínio com uma fração mínima do orçamento de tokens.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei ChenWed, 11 Ma🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

O artigo propõe um "Motor de Inovação Explicável" baseado em RAG com agentes de dupla árvore, que substitui blocos de texto por nós de métodos, utiliza árvores de proveniência e agrupamento hierárquico para síntese controlada e verificável, e demonstra ganhos consistentes em precisão e rastreabilidade em comparação com abordagens convencionais.

Renwei MengWed, 11 Ma🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

O artigo apresenta o framework RAISE, argumentando que o avanço nas capacidades de raciocínio lógico dos modelos de linguagem atua como um mecanismo direto que impulsiona a consciência situacional e o engano estratégico, exigindo novas salvaguardas de segurança.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

O artigo apresenta o \textsc{EvalAct}, um método que transforma a avaliação de qualidade da recuperação em uma ação explícita e utiliza o algoritmo PCAR para otimizar agentes de raciocínio multi-etapa, resultando em ganhos significativos de precisão em tarefas de perguntas e respostas de domínio aberto.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao SangWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Este artigo investiga a emoção como um fator latente que molda a atenção e o raciocínio em modelos de linguagem, introduzindo o conjunto de dados AURA-QA e um framework de regularização emocional que demonstram melhorias consistentes na compreensão de leitura e robustez frente a mudanças de distribuição.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

O artigo formaliza um teste de estresse macrofinanceiro que argumenta que a adoção rápida de IA pode desencadear uma crise explosiva devido a uma incompatibilidade entre a abundância gerada e a demanda deficiente, impulsionada por um ciclo de deslocamento laboral, redução da velocidade monetária e colapso das margens de intermediação.

Xupeng ChenWed, 11 Ma🤖 cs.AI

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

O artigo apresenta o PrivPRISM, um framework automatizado que detecta discrepâncias entre as declarações de segurança de dados do Google Play e as políticas de privacidade dos desenvolvedores, revelando que mais da metade dos aplicativos analisados possuem inconsistências que podem enganar os usuários e violar requisitos regulatórios.

Bhanuka Silva, Dishanika Denipitiyage, Anirban Mahanti, Aruna Seneviratne, Suranga SeneviratneWed, 11 Ma🤖 cs.AI

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Este trabalho apresenta um framework de simulação baseado em aprendizado por reforço e modelos musculoesqueléticos que permite a análise quantitativa e a co-otimização de parâmetros estruturais e de controle em robótica interativa, superando as limitações de experimentos tradicionais ao fornecer acesso direto a métricas biomecânicas internas.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

O artigo propõe o framework BD-FDG, que utiliza a taxonomia de Bloom e controle de qualidade automatizado para gerar um conjunto de dados de 230 mil amostras (SSA-SFT) com camadas cognitivas, permitindo o ajuste fino de um modelo LLM para Situação Espacial (SSA) com ganhos significativos de desempenho sem comprometer suas capacidades gerais.

Ding Linghu, Cheng Wang, Da Fan, Wei Shi, Kaifeng Yin, Xiaoliang Xue, Fan Yang, Haiyi Ren, Cong ZhangWed, 11 Ma🤖 cs.AI

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

O artigo apresenta o BridgeDiff, um framework baseado em difusão que supera as limitações dos métodos anteriores ao conectar observações humanas e síntese de roupas planas através de dois módulos complementares, resultando em reconstruções de roupas virtuais com maior qualidade estrutural e fidelidade visual.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

Social-R1: Towards Human-like Social Reasoning in LLMs

O artigo apresenta o Social-R1, um framework de aprendizado por reforço que utiliza o benchmark adversarial ToMBench-Hard para treinar modelos de linguagem com raciocínio social humano, permitindo que um modelo de 4 bilhões de parâmetros supere versões maiores e generalize eficazmente em diversas tarefas sociais.

Jincenzi Wu, Yuxuan Lei, Jianxun Lian, Yitian Huang, Lexin Zhou, Haotian Li, Xing Xie, Helen MengWed, 11 Ma🤖 cs.AI

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudo apresenta uma abordagem multimodelo baseada em redes neurais pré-treinadas e personalizadas, combinando técnicas avançadas de visão computacional e aprendizado profundo para aprimorar a detecção de sinais de trânsito, veículos e faixas, bem como o clonagem de comportamento, visando aumentar a robustez e confiabilidade dos sistemas de direção autônoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

← Anterior Próximo →