cs.AI artigos | Gist.Science

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

O artigo apresenta o OSExpert, um agente de uso de computador que supera as limitações atuais ao utilizar uma exploração baseada em busca em profundidade (GUI-DFS) para descobrir funções unitárias e construir um currículo de habilidades, resultando em um ganho de desempenho de cerca de 20% e uma redução de 80% na lacuna de eficiência em relação a especialistas humanos.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

Emergence is Overrated: AGI as an Archipelago of Experts

Este artigo desafia a noção de que a inteligência requer princípios unificadores de compressão, argumentando que a expertise humana opera através de vastos repertórios especializados e propondo que a AGI deve ser redefinida como um "arquipélago de especialistas" composto por módulos isolados, em vez de um sistema unificado de inteligência emergente.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

O artigo apresenta o \$OneMillion-Bench, um novo benchmark composto por 400 tarefas curadas por especialistas em áreas como Direito, Finanças e Saúde, projetado para avaliar a confiabilidade e a profundidade profissional de agentes de linguagem em cenários complexos do mundo real que exigem raciocínio de longo prazo e uso de ferramentas, superando as limitações dos testes existentes.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

O artigo apresenta o CMMR-VLN, um framework de navegação visão-linguagem que aprimora agentes baseados em LLMs através de uma memória multimodal estruturada e mecanismos de reflexão, permitindo a recuperação seletiva de experiências passadas e alcançando melhorias significativas nas taxas de sucesso em cenários de longo alcance e desconhecidos.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Este trabalho apresenta a Manipulabilidade Aerodinâmica Consciente do Arrasto (DAAM), um framework geométrico para alocação de controle em multirotores redundantes que utiliza uma métrica Riemanniana baseada na capacidade de aceleração remanescente para penalizar a saturação induzida pelo arrasto e garantir alocações ótimas invariantes a escalas de coordenadas, enquanto caracteriza analiticamente a suavidade local e as descontinuidades globais decorrentes dos limites físicos dos atuadores.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

O artigo propõe o framework ViSA, uma arquitetura colaborativa de três fases que aprimora a navegação aérea visão-linguagem ao permitir que modelos de visão e linguagem realizem raciocínio direto em planos de imagem sem treinamento adicional, alcançando uma melhoria de 70,3% na taxa de sucesso em comparação com métodos existentes.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

O artigo apresenta o PIRA-Bench, um novo benchmark e a base PIRF projetados para superar os paradigmas reativos atuais de agentes de interface gráfica, permitindo que modelos de linguagem multimodal antecipem proativamente as intenções do usuário a partir de entradas visuais contínuas e ruidosas.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

O artigo propõe o FedMomentum, um novo framework para ajuste fino federado de modelos de linguagem que utiliza decomposição em valores singulares (SVD) para agregar atualizações LoRA de forma estruturada e preservar o momentum do treinamento, superando as limitações de convergência e expressividade dos métodos existentes.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

O artigo propõe uma visão dinâmica unificada que, por meio das lentes de tarefa e intenção, reexamina as relações estruturais entre alinhamento, processo e resultado na colaboração entre humanos e IAs, superando a visão linear tradicional.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

O artigo apresenta o DyLLM, um framework de inferência sem treinamento para Modelos de Linguagem de Difusão (MDLMs) que acelera a geração de texto em até 9,6 vezes ao identificar e processar apenas os "tokens salientes" que mudam significativamente entre os passos de denoising, reutilizando as ativações dos demais tokens para reduzir o custo computacional sem comprometer a precisão.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

O artigo apresenta o GCGNet, uma Rede Generativa Consistente em Grafos que supera as limitações dos métodos existentes ao modelar simultaneamente correlações temporais e entre canais de variáveis exógenas de forma robusta a ruídos, utilizando um gerador variacional, um alinhador de estrutura de grafos e um refinador para alcançar desempenho superior em previsões de séries temporais.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

O artigo apresenta o CDRRM, um modelo de recompensa escalável e interpretável que utiliza um paradigma de "contraste-síntese" para gerar rubricas de alta qualidade a partir de poucos dados, superando os vieses e limitações das abordagens tradicionais de alinhamento de LLMs.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

O artigo propõe o framework S2S-FDD, que integra sinais de séries temporais industriais e linguagem natural por meio de um operador de conversão e um método de diagnóstico em árvore, permitindo diagnósticos de falhas zero-shot explicáveis e interativos para sistemas industriais.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

O Speed3R é um modelo de reconstrução 3D feed-forward eficiente que supera os gargalos computacionais de atenção densa ao empregar um mecanismo de atenção de dois ramos focado em tokens informativos, alcançando um aumento de velocidade de 12,4x em sequências de 1000 vistas com uma perda mínima de precisão geométrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

O artigo apresenta o ImageEdit-R1, um framework multiagente que utiliza aprendizado por reforço para coordenar agentes especializados em visão e linguagem, superando as limitações de modelos existentes ao tratar a edição de imagem como um problema de tomada de decisão sequencial para executar instruções complexas e contextuais com maior precisão.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

O artigo propõe o Aprendizado por Reforço em Contexto (ICRL), uma abordagem que elimina a necessidade de ajuste fino supervisionado (SFT) ao utilizar exemplos em contexto durante o treinamento por reforço para ensinar modelos de linguagem a usar ferramentas externas, alcançando desempenho superior de forma escalável e eficiente em dados.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artigo apresenta o framework DC-W2S, que utiliza um mecanismo de consenso duplo para filtrar sinais de supervisão ruidosa e treinar modelos de recompensa de processo robustos para raciocínio biológico, eliminando a necessidade de anotação extensiva por especialistas.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

← Anterior Próximo →