cs.AI artigos | Gist.Science

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Este artigo apresenta um pipeline automatizado que utiliza Grandes Modelos de Linguagem (LLMs) para detectar e analisar as causas raiz de testes flutuantes em software quântico, expandindo um conjunto de dados existente e demonstrando que o modelo Google Gemini alcança alta precisão na classificação e identificação de falhas.

Janakan Sivaloganathan, Ainaz Jamshidi, Andriy Miranskyy, Lei ZhangWed, 11 Ma🤖 cs.AI

PlayWorld: Learning Robot World Models from Autonomous Play

O artigo apresenta o PlayWorld, um pipeline autônomo e escalável que treina simuladores de mundo de vídeo de alta fidelidade a partir de interações não supervisionadas de robôs, superando as limitações de dados humanos para prever interações físicas complexas e melhorar significativamente o desempenho de políticas de aprendizado por reforço no mundo real.

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha MajumdarWed, 11 Ma🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

O artigo apresenta o WS-Net, uma nova estrutura de aprendizado profundo para desmistificação hiperespectral que combina modelagem de espaço de estados (Mamba) e atenção a sinais fracos para superar a colapso de respostas espectrais fracas, alcançando reduções significativas nos erros de estimativa de abundância em comparação com métodos existentes.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Time, Identity and Consciousness in Language Model Agents

Este artigo propõe uma ferramenta conservadora para avaliar a identidade de agentes de modelos de linguagem, utilizando a Teoria da Pilha para distinguir entre a mera capacidade de falar como um "eu" estável e a organização real de uma consciência persistente, separando a ocorrência de elementos dentro de uma janela de avaliação da sua co-instantiação em um único passo objetivo.

Elija Perrier, Michael Timothy BennettWed, 11 Ma🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

O artigo apresenta o EPOCH, um protocolo de engenharia que organiza a otimização de sistemas autônomos em fases de construção de baseline e melhoria iterativa, estruturando cada rodada em estágios com restrições de função e interfaces padronizadas para garantir estabilidade, reprodutibilidade e rastreabilidade em ambientes heterogêneos.

Zhanlin Liu, Yitao Li, Munirathnam SrikanthWed, 11 Ma🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

O artigo apresenta o "Sentinel", um agente de IA autônomo que supera os médicos individuais na triagem de sinais vitais de monitoramento remoto de pacientes, alcançando alta sensibilidade e consistência a um custo mínimo, o que resolve o problema de escalabilidade que limitou estudos clínicos anteriores.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

O artigo propõe o Sim2Act, um framework robusto de aprendizado de simulação para decisão que utiliza calibração adversarial e perturbação relativa a grupos para alinhar a fidelidade da simulação com o impacto das decisões e estabilizar políticas em ambientes incertos, superando as limitações de abordagens existentes em domínios críticos como cadeias de suprimentos.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

Este artigo apresenta o Doki, uma interface nativa de texto para a criação de vídeos generativos que permite aos usuários definir ativos, estruturar cenas e editar conteúdo diretamente em documentos de texto, validando sua acessibilidade e eficácia através de um estudo de implantação com participantes de diversos níveis de experiência.

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu LiWed, 11 Ma🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

O artigo apresenta o GST-VLA, um modelo de Visão-Linguagem-Ação que introduz um Tokenizador Espacial Gaussiano para representar observações visuais como primitivas 3D estruturadas e um raciocínio de Cadeia de Pensamento Consciente de Profundidade, alcançando desempenho superior em tarefas de robótica que exigem precisão geométrica.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Este estudo demonstra que a integração de scores de sentimento derivados de notícias em inglês e chinês, extraídos por modelos de linguagem (LLMs) ajustados como o Qwen3, com dados tabulares tradicionais, melhora significativamente a previsão de preços do alumínio e o desempenho econômico em mercados voláteis, superando modelos base apenas em dados numéricos.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artigo propõe um quadro unificado de modelos de mundo latente para a condução autónoma, estabelecendo uma taxonomia abrangente, identificando cinco mecanismos internos críticos, definindo métricas de avaliação de ciclo fechado e delineando desafios futuros para garantir sistemas robustos, generalizáveis e eficientes.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artigo propõe um framework baseado em transformers para a recuperação de casos de câncer de pele combinando imagens e texto, que alinha representações globais e locais para melhorar a precisão na identificação de lesões clínicas relevantes.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

O artigo apresenta o VIVID-Med, um novo framework que utiliza um grande modelo de linguagem (LLM) congelado como professor semântico estruturado para pré-treinar vision transformers (ViTs) médicos, resultando em um backbone leve e altamente eficiente que supera modelos existentes com menos dados e demonstra forte generalização em tarefas de classificação de imagens médicas.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

O artigo apresenta o PM-Nav, um sistema de navegação corporal guiado por mapas prévios que transforma mapas ambientais em representações semânticas e utiliza prompts hierárquicos de cadeia de pensamento para superar as limitações de navegação em edifícios funcionais com características altamente similares, alcançando melhorias significativas em relação aos métodos existentes tanto em simulação quanto no mundo real.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

O artigo apresenta o DexHiL, um inovador framework de aprendizado com intervenção humana que integra o controle do braço e da mão para o pós-treinamento de modelos Visão-Linguagem-Ação, demonstrando um aumento significativo de 25% nas taxas de sucesso em tarefas de manipulação dextrosa em comparação com métodos de ajuste fino offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

O artigo propõe o QUSR, um modelo de difusão para super-resolução de imagens que combina um Priori Consciente da Qualidade (QAP) baseado em Modelos de Linguagem Multimodal e uma Geração de Ruído Guiada pela Incerteza (UNG) para adaptar a intensidade do ruído conforme a complexidade da região, resultando em imagens de alta fidelidade e realismo em cenários do mundo real com degradações desconhecidas.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Este artigo demonstra que sistemas de deliberação multi-LLM exibem instabilidade caótica e sensibilidade às condições iniciais mesmo em regimes esperados como determinísticos, identificando a diferenciação de papéis e a heterogeneidade de modelos como causas principais e sugerindo auditorias de estabilidade como requisito essencial para o design desses sistemas.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo KimWed, 11 Ma🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artigo propõe um método de regularização baseado na Probabilidade de Necessidade e Suficiência (PNS) para Aprendizagem Incremental de Classes, que utiliza geradores contrafactuais para mitigar colisões de características causadas por correlações espúrias intra e inter-tarefas, garantindo assim a completude causal e a separabilidade das representações.

Zhen Zhang, Jielei Chu, Tianrui LiWed, 11 Ma🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

O artigo propõe um novo framework de agentes chamado Deep Tabular Research (DTR) para resolver tarefas analíticas complexas em tabelas não estruturadas, utilizando um processo de tomada de decisão em ciclo fechado que combina mapeamento semântico hierárquico, seleção de caminhos orientada por utilidade e memória contínua baseada em resultados históricos para refinar o raciocínio de longo prazo.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue HuangWed, 11 Ma🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

O artigo apresenta o DataFactory, um framework colaborativo multi-agente que supera as limitações de modelos de linguagem únicos na Resposta a Perguntas sobre Tabelas (TableQA) através da orquestração especializada de agentes, transformação automática de dados em grafos de conhecimento e estratégias de engenharia de contexto, resultando em ganhos significativos de precisão e robustez em benchmarks padrão.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

← Anterior Próximo →