cs.AI artigos | Gist.Science

PSTNet: Physically-Structured Turbulence Network

O artigo apresenta o PSTNet, uma rede neural leve e estruturada fisicamente que integra princípios da teoria atmosférica para estimar a intensidade da turbulência em tempo real com alta precisão e eficiência computacional, sendo ideal para sistemas de navegação aérea em veículos hipersônicos e ambientes com recursos limitados.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

O artigo apresenta o EvoStage, uma nova abordagem evolutiva que utiliza modelos de linguagem (LLMs) em estágios sequenciais com feedback e uma perspectiva global-local para superar as limitações de métodos de caixa preta, resultando no projeto de algoritmos otimizados que superam designs humanos e técnicas existentes em tarefas complexas como o posicionamento de chips.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

O artigo propõe o framework HILA, que utiliza uma otimização de política em duplo loop para capacitar sistemas multiagentes a aprender metacognitivamente quando colaborar com humanos, permitindo aprendizado contínuo e superando as limitações de conhecimento estático dos modelos autônomos.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

O artigo apresenta o VORL-EXPLORE, uma abordagem híbrida de aprendizado e planejamento para exploração multi-robô em ambientes dinâmicos que utiliza uma estimativa compartilhada de navegabilidade para acoplar alocação de tarefas e execução de movimento, reduzindo contenções e adaptando-se a obstáculos não estacionários através de um mecanismo de arbitragem entre navegação global e políticas reativas.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

O artigo apresenta o OSExpert, um agente de uso de computador que supera as limitações atuais ao utilizar uma exploração baseada em busca em profundidade (GUI-DFS) para descobrir funções unitárias e construir um currículo de habilidades, resultando em um ganho de desempenho de cerca de 20% e uma redução de 80% na lacuna de eficiência em relação a especialistas humanos.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

Emergence is Overrated: AGI as an Archipelago of Experts

Este artigo desafia a noção de que a inteligência requer princípios unificadores de compressão, argumentando que a expertise humana opera através de vastos repertórios especializados e propondo que a AGI deve ser redefinida como um "arquipélago de especialistas" composto por módulos isolados, em vez de um sistema unificado de inteligência emergente.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

O artigo apresenta o \$OneMillion-Bench, um novo benchmark composto por 400 tarefas curadas por especialistas em áreas como Direito, Finanças e Saúde, projetado para avaliar a confiabilidade e a profundidade profissional de agentes de linguagem em cenários complexos do mundo real que exigem raciocínio de longo prazo e uso de ferramentas, superando as limitações dos testes existentes.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

O artigo apresenta o CMMR-VLN, um framework de navegação visão-linguagem que aprimora agentes baseados em LLMs através de uma memória multimodal estruturada e mecanismos de reflexão, permitindo a recuperação seletiva de experiências passadas e alcançando melhorias significativas nas taxas de sucesso em cenários de longo alcance e desconhecidos.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Este trabalho apresenta a Manipulabilidade Aerodinâmica Consciente do Arrasto (DAAM), um framework geométrico para alocação de controle em multirotores redundantes que utiliza uma métrica Riemanniana baseada na capacidade de aceleração remanescente para penalizar a saturação induzida pelo arrasto e garantir alocações ótimas invariantes a escalas de coordenadas, enquanto caracteriza analiticamente a suavidade local e as descontinuidades globais decorrentes dos limites físicos dos atuadores.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

O artigo propõe o framework ViSA, uma arquitetura colaborativa de três fases que aprimora a navegação aérea visão-linguagem ao permitir que modelos de visão e linguagem realizem raciocínio direto em planos de imagem sem treinamento adicional, alcançando uma melhoria de 70,3% na taxa de sucesso em comparação com métodos existentes.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

O artigo apresenta o PIRA-Bench, um novo benchmark e a base PIRF projetados para superar os paradigmas reativos atuais de agentes de interface gráfica, permitindo que modelos de linguagem multimodal antecipem proativamente as intenções do usuário a partir de entradas visuais contínuas e ruidosas.

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

O artigo propõe o FedMomentum, um novo framework para ajuste fino federado de modelos de linguagem que utiliza decomposição em valores singulares (SVD) para agregar atualizações LoRA de forma estruturada e preservar o momentum do treinamento, superando as limitações de convergência e expressividade dos métodos existentes.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

O artigo propõe uma visão dinâmica unificada que, por meio das lentes de tarefa e intenção, reexamina as relações estruturais entre alinhamento, processo e resultado na colaboração entre humanos e IAs, superando a visão linear tradicional.

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

O artigo apresenta o DyLLM, um framework de inferência sem treinamento para Modelos de Linguagem de Difusão (MDLMs) que acelera a geração de texto em até 9,6 vezes ao identificar e processar apenas os "tokens salientes" que mudam significativamente entre os passos de denoising, reutilizando as ativações dos demais tokens para reduzir o custo computacional sem comprometer a precisão.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

O artigo apresenta o GCGNet, uma Rede Generativa Consistente em Grafos que supera as limitações dos métodos existentes ao modelar simultaneamente correlações temporais e entre canais de variáveis exógenas de forma robusta a ruídos, utilizando um gerador variacional, um alinhador de estrutura de grafos e um refinador para alcançar desempenho superior em previsões de séries temporais.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

O artigo apresenta o CDRRM, um modelo de recompensa escalável e interpretável que utiliza um paradigma de "contraste-síntese" para gerar rubricas de alta qualidade a partir de poucos dados, superando os vieses e limitações das abordagens tradicionais de alinhamento de LLMs.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

O artigo propõe o framework S2S-FDD, que integra sinais de séries temporais industriais e linguagem natural por meio de um operador de conversão e um método de diagnóstico em árvore, permitindo diagnósticos de falhas zero-shot explicáveis e interativos para sistemas industriais.

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

O Speed3R é um modelo de reconstrução 3D feed-forward eficiente que supera os gargalos computacionais de atenção densa ao empregar um mecanismo de atenção de dois ramos focado em tokens informativos, alcançando um aumento de velocidade de 12,4x em sequências de 1000 vistas com uma perda mínima de precisão geométrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

← Anterior Próximo →