Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Este artigo propõe um controlador híbrido que combina Aprendizado por Reforço Profundo (DRL) com Busca de Extremo Limitada (ES) para melhorar a robustez de sistemas não lineares variantes no tempo, superando as limitações individuais de cada método ao utilizar o DRL para controle rápido baseado em dados históricos e a ES para garantir estabilidade frente a variações dinâmicas.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

AlphaApollo: A System for Deep Agentic Reasoning

O artigo apresenta o AlphaApollo, um sistema de raciocínio agênico que supera limitações em modelos fundamentais ao combinar interações de múltiplas voltas, aprendizado por reforço e evolução iterativa para melhorar significativamente o desempenho em tarefas de raciocínio complexo e de longo prazo.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artigo apresenta o DuNe, um novo framework de dupla visão que alcança o estado da arte na segmentação semântica de LiDAR com generalização de domínio sob rótulos ruidosos, superando as limitações dos métodos existentes ao lidar com a estrutura esparsa e irregular de nuvens de pontos.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

O artigo apresenta o RL-100, um framework de aprendizado por reforço no mundo real baseado em políticas visuomotoras de difusão que unifica imitação e reforço, alcançando 100% de sucesso em diversas tarefas robóticas complexas e demonstrando alta robustez e eficiência em cenários de implantação prática.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

O artigo propõe o Bradley-Terry Policy Optimization (BTPO), um novo método que deriva um estimador consistente de Monte Carlo para otimizar modelos de linguagem com raciocínio passo a passo em tarefas baseadas em preferências humanas, superando as abordagens heurísticas existentes que falham ao tratar o raciocínio como uma variável latente.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

O artigo apresenta o FALCON, um novo paradigma que integra priores espaciais 3D ricos em modelos de fundação diretamente no cabeçalho de ação de modelos Visão-Linguagem-Ação, permitindo raciocínio espacial robusto e desempenho de ponta em tarefas do mundo real sem comprometer o alinhamento linguístico ou exigir reestruturação arquitetural.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

O artigo apresenta o GraphKeeper, um método inovador de aprendizado incremental em grafos que aborda o esquecimento catastrófico em cenários de múltiplos domínios através da disentrelaçamento e preservação de conhecimento, alcançando desempenho superior e compatibilidade com diversos modelos fundamentais de grafos.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Este artigo apresenta um método de aprendizado em contexto utilizando modelos fundamentais de séries temporais para classificar o estado de saúde de mancais em dados de vibração sem necessidade de ajuste fino, permitindo a previsão de probabilidades de classe através da transformação de sinais de referência em padrões pseudo temporais.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Este estudo apresenta o Decoder-DeepONet (DDON), um novo modelo de aprendizado de operadores interpretável que supera métodos anteriores e clássicos na reconstrução precisa e generalizável de perfis de campo elétrico a partir de sinais EFISH, mesmo com dados de entrada incompletos, oferecendo ainda insights sobre as regiões de sinal mais críticas para a aquisição experimental.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

O artigo propõe o ELERAG, uma arquitetura aprimorada de Geração Aumentada por Recuperação (RAG) que integra a Vinculação de Entidades para melhorar a precisão factual em sistemas de perguntas e respostas educacionais em italiano, demonstrando que estratégias híbridas adaptadas ao domínio superam abordagens padrão em contextos especializados.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI