cs.LG papers | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Dit artikel presenteert een hybride besturingsmethode die Deep Reinforcement Learning combineert met bounded extremum seeking om de robuustheid en prestaties van controllers voor niet-lineaire, tijdvariërende systemen te verbeteren, zoals gedemonstreerd bij de automatische afstelling van een deeltjesversneller.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

Dit paper introduceert de Latent Speech-Text Transformer (LST), een model dat spraaktokens aggregeert tot latente patches om de rekenefficiëntie te verbeteren en de prestaties van zowel spraak- als teksttaken te verhogen door de sequentiegranulariteit tussen beide modaliteiten te aligneren.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

AlphaApollo is een agentic redeneersysteem dat de beperkingen van fundamentele modellen in complexe probleemoplossing en onbetrouwbare testtijd-evolutie aanpakt door middel van een geïntegreerde architectuur met multi-turn redenering, versterkt leren en een iteratieve evolueringscyclus met tool-geassisteerde verificatie.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Deze paper introduceert het nieuwe taakgebied DGLSS-NL voor LiDAR-segmentatie met onvolmaakte labels, presenteert een eerste benchmark en stelt DuNe voor, een dubbelzicht-architectuur die de prestaties aanzienlijk verbetert door consistentie tussen sterke en zwakke weergaven te forceren en vertrouwen-gebaseerde filtering toe te passen.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Het paper introduceert RECODE, een agentisch framework dat multimodale redenering verbetert door visuele elementen zoals grafieken en diagrammen om te zetten in verifieerbare uitvoerbare code via een proces van afbeelding naar code en terug.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Het artikel introduceert REAP, een nieuwe methode voor het comprimeren van MoE-modellen door experts te verwijderen in plaats van ze te samenvoegen, wat leidt tot superieure prestaties op generatieve taken zoals codegeneratie door het behoud van de fijne routeringscontrole.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Het paper introduceert RL-100, een robuust real-world reinforcement learning-framework dat diffusiebeleid combineert met PPO en consistentiedistillatie om robotmanipulatietaken met 100% succes en menselijke snelheid uit te voeren, zelfs onder dynamische veranderingen en zonder hertraining.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

Dit paper introduceert Bradley-Terry Policy Optimization (BTPO), een methode die een consistente Monte Carlo-schatter voorstelt om het trainen van generatieve voorkeurmodellen met chain-of-thought-reasoning voor niet-verifieerbare taken mogelijk te maken, waarbij het probleem van het latentere redeneerproces wordt opgelost dat bestaande RL-benaderingen beperkt.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

Dit paper introduceert AffPCL, een nieuw raamwerk voor gepersonaliseerd collaboratief leren dat heterogene agenten in staat stelt om hun sample complexiteit te reduceren door een adaptieve, affiniteitsgebaseerde variance-reductie die naadloos varieert tussen lineaire versnelling bij homogeniteit en onafhankelijk leren bij hoge heterogeniteit.

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Dit paper introduceert FALCON, een nieuw paradigma dat rijke 3D-ruimtelijke tokens afgeleid van RGB-beelden injecteert in de actiehead van Vision-Language-Action-modellen om de ruimtelijke redenering te verbeteren en state-of-the-art prestaties te bereiken in zowel simulatie als real-world taken.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Het artikel introduceert GraphKeeper, een nieuwe methode voor graf-domein-incrementeel leren die catastrofale vergetelheid aanpakt door kennisontvlechting en -behoud te combineren, waardoor state-of-the-art resultaten worden behaald met minimale vergetelheid en naadloze integratie met graf-fondamentmodellen.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Dit paper introduceert gestructureerde matrix-schaling met geavanceerde regularisatie en optimalisatie om overfitting bij multi-class kalibratie te voorkomen en zo aanzienlijk betere prestaties te behalen dan bestaande methoden zoals temperatuur- en vector-schaling.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Dit artikel introduceert LTSV, een lichtgewicht methode voor het waarderen van tijdreeksdata in foundationmodellen via in-context finetuning en temporele blokkenaggregatie, die een nauwkeurige en schaalbare oplossing biedt voor de beperkingen van traditionele datawaarderingstechnieken.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Deze paper introduceert een methode voor het classificeren van de gezondheidstoestand van lagers op basis van in-context learning met tijdreeks-fundamentmodellen, waardoor vibratiegegevens zonder fijnafstemming kunnen worden geanalyseerd en de weg vrijmaken voor schaalbare AI-onderhoudssystemen.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Dit artikel introduceert een periodiek asynchrone, on-policy framework voor LLM-versterkingsleer dat door het scheiden van inferentie en training een drievoudige tot vijfvoudige toename in doorvoersnelheid bereikt zonder de nauwkeurigheid te beïnvloeden.

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Dit artikel introduceert Decoder-DeepONet (DDON), een interpreteerbaar operator-leermodel dat superieure prestaties biedt bij het reconstrueren van elektrische veldprofielen uit EFISH-signalen in ongelijkmatige plasma's, zelfs bij onvolledige invoer, en tegelijkertijd inzicht verschaft in de meest kritieke signaalgebieden voor optimale bemonstering.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Dit artikel introduceert ELERAG, een verbeterde Retrieval-Augmented Generation-architectuur die Entiteitenkoppeling integreert om de feitelijke nauwkeurigheid van educatieve vraag-antwoordsystemen in het Italiaans te verhogen, waarbij experimenten aantonen dat deze domeinspecifieke aanpak de prestaties van standaardmodellen overtreft in gespecialiseerde contexten.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

Deze paper introduceert SA²GFM, een robuust framework voor graf-fundamentmodellen dat domeinadaptatie en weerstand tegen verstoringen verbetert door hiërarchische structurele priors om te zetten in semantische augmentatie, een informatie-flessenhals-mechanisme en een expert-adaptieve routering.

Junhua Shi, Qingyun Sun, Haonan Yuan, Xingcheng FuWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

ADHint is een nieuwe methode voor versterkingsleren die de beperkte schaalbaarheid en lage sample-efficiëntie aanpakt door moeilijkheidsgraden expliciet te integreren in het plannen van hints en de schatting van voordelen, waardoor een betere balans tussen exploratie en imitatie wordt bereikt en superieure redeneervermogens worden gerealiseerd.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Dit paper introduceert Directional Textual Inversion (DTI), een methode die de norm van embeddings fixeert en uitsluitend de richting optimaliseert om de tekstgetrouwheid en interpolatiemogelijkheden bij gepersonaliseerde tekst-naar-beeldgeneratie te verbeteren.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

← Vorige Volgende →

cs.LG