Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Dit artikel presenteert een hybride besturingsmethode die Deep Reinforcement Learning combineert met bounded extremum seeking om de robuustheid en prestaties van controllers voor niet-lineaire, tijdvariërende systemen te verbeteren, zoals gedemonstreerd bij de automatische afstelling van een deeltjesversneller.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

AlphaApollo: A System for Deep Agentic Reasoning

AlphaApollo is een agentic redeneersysteem dat de beperkingen van fundamentele modellen in complexe probleemoplossing en onbetrouwbare testtijd-evolutie aanpakt door middel van een geïntegreerde architectuur met multi-turn redenering, versterkt leren en een iteratieve evolueringscyclus met tool-geassisteerde verificatie.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Deze paper introduceert het nieuwe taakgebied DGLSS-NL voor LiDAR-segmentatie met onvolmaakte labels, presenteert een eerste benchmark en stelt DuNe voor, een dubbelzicht-architectuur die de prestaties aanzienlijk verbetert door consistentie tussen sterke en zwakke weergaven te forceren en vertrouwen-gebaseerde filtering toe te passen.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Bradley-Terry Policy Optimization for Generative Preference Modeling

Dit paper introduceert Bradley-Terry Policy Optimization (BTPO), een methode die een consistente Monte Carlo-schatter voorstelt om het trainen van generatieve voorkeurmodellen met chain-of-thought-reasoning voor niet-verifieerbare taken mogelijk te maken, waarbij het probleem van het latentere redeneerproces wordt opgelost dat bestaande RL-benaderingen beperkt.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Dit paper introduceert FALCON, een nieuw paradigma dat rijke 3D-ruimtelijke tokens afgeleid van RGB-beelden injecteert in de actiehead van Vision-Language-Action-modellen om de ruimtelijke redenering te verbeteren en state-of-the-art prestaties te bereiken in zowel simulatie als real-world taken.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Het artikel introduceert GraphKeeper, een nieuwe methode voor graf-domein-incrementeel leren die catastrofale vergetelheid aanpakt door kennisontvlechting en -behoud te combineren, waardoor state-of-the-art resultaten worden behaald met minimale vergetelheid en naadloze integratie met graf-fondamentmodellen.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Dit artikel introduceert Decoder-DeepONet (DDON), een interpreteerbaar operator-leermodel dat superieure prestaties biedt bij het reconstrueren van elektrische veldprofielen uit EFISH-signalen in ongelijkmatige plasma's, zelfs bij onvolledige invoer, en tegelijkertijd inzicht verschaft in de meest kritieke signaalgebieden voor optimale bemonstering.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Dit artikel introduceert ELERAG, een verbeterde Retrieval-Augmented Generation-architectuur die Entiteitenkoppeling integreert om de feitelijke nauwkeurigheid van educatieve vraag-antwoordsystemen in het Italiaans te verhogen, waarbij experimenten aantonen dat deze domeinspecifieke aanpak de prestaties van standaardmodellen overtreft in gespecialiseerde contexten.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

ADHint is een nieuwe methode voor versterkingsleren die de beperkte schaalbaarheid en lage sample-efficiëntie aanpakt door moeilijkheidsgraden expliciet te integreren in het plannen van hints en de schatting van voordelen, waardoor een betere balans tussen exploratie en imitatie wordt bereikt en superieure redeneervermogens worden gerealiseerd.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG