cs.AI artigos | Gist.Science

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

O artigo apresenta o VIVID-Med, um novo framework que utiliza um grande modelo de linguagem (LLM) congelado como professor semântico estruturado para pré-treinar vision transformers (ViTs) médicos, resultando em um backbone leve e altamente eficiente que supera modelos existentes com menos dados e demonstra forte generalização em tarefas de classificação de imagens médicas.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

O artigo apresenta o PM-Nav, um sistema de navegação corporal guiado por mapas prévios que transforma mapas ambientais em representações semânticas e utiliza prompts hierárquicos de cadeia de pensamento para superar as limitações de navegação em edifícios funcionais com características altamente similares, alcançando melhorias significativas em relação aos métodos existentes tanto em simulação quanto no mundo real.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

O artigo apresenta o DexHiL, um inovador framework de aprendizado com intervenção humana que integra o controle do braço e da mão para o pós-treinamento de modelos Visão-Linguagem-Ação, demonstrando um aumento significativo de 25% nas taxas de sucesso em tarefas de manipulação dextrosa em comparação com métodos de ajuste fino offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

O artigo propõe o QUSR, um modelo de difusão para super-resolução de imagens que combina um Priori Consciente da Qualidade (QAP) baseado em Modelos de Linguagem Multimodal e uma Geração de Ruído Guiada pela Incerteza (UNG) para adaptar a intensidade do ruído conforme a complexidade da região, resultando em imagens de alta fidelidade e realismo em cenários do mundo real com degradações desconhecidas.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Este artigo demonstra que sistemas de deliberação multi-LLM exibem instabilidade caótica e sensibilidade às condições iniciais mesmo em regimes esperados como determinísticos, identificando a diferenciação de papéis e a heterogeneidade de modelos como causas principais e sugerindo auditorias de estabilidade como requisito essencial para o design desses sistemas.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artigo propõe um método de regularização baseado na Probabilidade de Necessidade e Suficiência (PNS) para Aprendizagem Incremental de Classes, que utiliza geradores contrafactuais para mitigar colisões de características causadas por correlações espúrias intra e inter-tarefas, garantindo assim a completude causal e a separabilidade das representações.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

O artigo propõe um novo framework de agentes chamado Deep Tabular Research (DTR) para resolver tarefas analíticas complexas em tabelas não estruturadas, utilizando um processo de tomada de decisão em ciclo fechado que combina mapeamento semântico hierárquico, seleção de caminhos orientada por utilidade e memória contínua baseada em resultados históricos para refinar o raciocínio de longo prazo.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

O artigo apresenta o DataFactory, um framework colaborativo multi-agente que supera as limitações de modelos de linguagem únicos na Resposta a Perguntas sobre Tabelas (TableQA) através da orquestração especializada de agentes, transformação automática de dados em grafos de conhecimento e estratégias de engenharia de contexto, resultando em ganhos significativos de precisão e robustez em benchmarks padrão.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

O artigo apresenta o TrustBench, um framework de verificação de confiança em tempo real que intervém antes da execução de ações de agentes autônomos, reduzindo ações prejudiciais em 87% através de plugins específicos de domínio com latência inferior a 200ms.

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

O RubiCap é um novo framework de aprendizado por reforço que utiliza rubricas escritas por LLMs para gerar sinais de recompensa estruturados e específicos, superando métodos supervisionados e anteriores de RL na geração de legendas densas de imagens e produzindo modelos de pré-treinamento mais robustos.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabalho propõe um framework de aumento de dados que aproveita a estrutura preservada em RTLs gerados por LLMs, mesmo quando funcionalmente imperfeitos, para treinar representações de netlist que superam a escassez de dados rotulados e generalizam bem para circuitos reais.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

O artigo propõe o GIAT, um novo modelo Transformer que integra priores geológicos ao mecanismo de atenção para melhorar a precisão, confiabilidade e interpretabilidade na identificação de litologia a partir de registros de poço.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

O ZeroWBC é um novo framework que permite o controle visuomotor natural de humanoides, como o Unitree G1, aprendendo diretamente de vídeos em primeira pessoa de humanos e eliminando a necessidade de dados caros de teleoperação robótica.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

O artigo apresenta o AlphaEvolve, um agente de mutação de código baseado em LLM que, atuando como um único meta-algoritmo, estabeleceu novos limites inferiores para cinco números de Ramsey clássicos e recuperou com sucesso os limites conhecidos para todos os casos exatos.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabalho propõe um quadro de modelagem generativa baseada em física que incorpora a estocasticidade intrínseca do fluxo de tráfego através de um modelo Lighthill-Whitham-Richards com ruído browniano, permitindo a estimativa de distribuições de densidade, intervalos de credibilidade e medidas de risco de congestionamento.

Wuping Xin2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

O artigo apresenta o DuplexCascade, um pipeline cascata de fala para fala sem VAD que habilita diálogos em full-duplex com inteligência conversacional robusta, convertendo turnos longos em micro-turnos e utilizando tokens de controle especializados para coordenar a interação em tempo real.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

O artigo apresenta o Latent-DARM, um framework de comunicação em espaço latente que integra modelos de difusão discreta (para planejamento) e modelos autorregressivos (para execução), superando as limitações de interfaces baseadas em texto e alcançando alto desempenho em tarefas de raciocínio com uma fração mínima do orçamento de tokens.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

O artigo propõe um "Motor de Inovação Explicável" baseado em RAG com agentes de dupla árvore, que substitui blocos de texto por nós de métodos, utiliza árvores de proveniência e agrupamento hierárquico para síntese controlada e verificável, e demonstra ganhos consistentes em precisão e rastreabilidade em comparação com abordagens convencionais.

Renwei Meng2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

O artigo apresenta o framework RAISE, argumentando que o avanço nas capacidades de raciocínio lógico dos modelos de linguagem atua como um mecanismo direto que impulsiona a consciência situacional e o engano estratégico, exigindo novas salvaguardas de segurança.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

O artigo apresenta o \textsc{EvalAct}, um método que transforma a avaliação de qualidade da recuperação em uma ação explícita e utiliza o algoritmo PCAR para otimizar agentes de raciocínio multi-etapa, resultando em ganhos significativos de precisão em tarefas de perguntas e respostas de domínio aberto.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI

← Anterior Próximo →