cs.LG articoli | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Questo articolo propone un controllore ibrido che combina l'apprendimento per rinforzo profondo (DRL) con la ricerca del massimo limitata (bounded extremum seeking) per migliorare la robustezza e le prestazioni dei sistemi di controllo non lineari a tempo variabile, come dimostrato nella sintonizzazione automatica di un acceleratore di particelle.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Questo articolo introduce il nuovo compito di generalizzazione del dominio per la segmentazione semantica LiDAR con etichette rumorose (DGLSS-NL), proponendo il framework DuNe che supera i limiti degli approcci esistenti ottenendo prestazioni all'avanguardia su diversi benchmark.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Il paper presenta RECODE, un framework agentico che migliora il ragionamento visivo nei modelli multimodali trasformando l'analisi di grafici e diagrammi nella generazione e verifica iterativa di codice eseguibile, superando così i limiti della percezione basata sui pixel.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Il paper introduce REAP, un metodo di pruning che supera le tecniche di fusione degli esperti per la compressione one-shot dei modelli MoE, preservando il controllo di routing e ottenendo prestazioni quasi senza perdite nelle attività generative.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Il paper presenta RL-100, un framework di apprendimento per rinforzo nel mondo reale basato su politiche visuo-motorie a diffusione, che unifica imitazione e rinforzo per ottenere un controllo robotico ad alta frequenza, stabile e robusto, raggiungendo il 100% di successo in 1000 episodi su otto compiti diversi e dimostrando capacità di adattamento zero-shot e few-shot in scenari dinamici complessi.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

Il paper introduce BTPO, un metodo di ottimizzazione che risolve la sfida dell'addestramento di modelli generativi con ragionamento a catena di pensiero (CoT) su compiti basati su preferenze umane, derivando un stimatore Monte Carlo coerente per massimizzare la verosimiglianza di Bradley-Terry trattando il processo di ragionamento come una variabile latente.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

Il paper propone AffPCL, un framework di apprendimento collaborativo personalizzato che riduce la complessità dei campioni adattandosi automaticamente all'eterogeneità degli agenti tramite meccanismi di correzione, garantendo un'accelerazione basata sull'affinità senza richiedere conoscenze a priori del sistema.

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Il paper presenta GraphKeeper, un nuovo approccio per l'apprendimento incrementale di dominio sui grafi che risolve il problema dell'oblio catastrofico attraverso la svincolamento e la preservazione della conoscenza, ottenendo risultati all'avanguardia e integrandosi efficacemente con diversi modelli fondazionali per i grafi.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Il paper propone metodi di ricalibrazione post-hoc basati su funzioni parametriche con regolarizzazione strutturata per gestire il trade-off bias-varianza nella calibrazione multiclasse, ottenendo prestazioni superiori rispetto alle tecniche esistenti e fornendo implementazioni open-source efficienti.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Il paper propone LTSV, un metodo leggero per la valutazione dei dati nelle serie temporali basato sui modelli fondazionali, che utilizza il fine-tuning in contesto e l'aggregazione di blocchi temporali per stimare in modo efficiente e preciso il contributo dei singoli campioni preservando le dipendenze temporali.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Il paper presenta un metodo di classificazione basato sull'apprendimento in contesto con modelli fondazione per serie temporali (TSFM) che, senza necessità di riaddestramento, valuta lo stato di salute dei cuscinetti analizzando dati vibrazionali, aprendo la strada a sistemi di manutenzione predittiva scalabili e forniti come servizio.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Il paper propone un framework di apprendimento per rinforzo asincrono periodico che, separando l'inferenza dall'addestramento in un pipeline produttore-consumatore, accelera l'addestramento dei LLM mantenendo la correttezza on-policy e ottenendo un miglioramento del throughput fino a cinque volte rispetto ai framework esistenti.

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Questo studio introduce il Decoder-DeepONet (DDON), un modello di apprendimento automatico interpretabile basato sull'operatore che supera i metodi precedenti per ricostruire con maggiore precisione e generalizzabilità i profili del campo elettrico nei scarichi di plasma non in equilibrio a partire dai segnali EFISH, anche in presenza di dati incompleti.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Il paper presenta ELERAG, un'architettura RAG potenziata dal Linking di Entità e da una strategia di riordinamento ibrida, che dimostra come l'integrazione di segnali fattuali basati su Wikidata migliori significativamente l'accuratezza nei sistemi di domanda-risposta educativi in italiano, superando i metodi tradizionali nei contesti specifici di dominio pur mantenendo prestazioni competitive su dataset generali.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

Il paper presenta SA $^{2}$ GFM, un framework innovativo per i Modelli Fondamentali su Grafi che ne migliora la robustezza e l'adattabilità ai domini attraverso l'aumento semantico consapevole della struttura, un meccanismo di routing adattivo e un'apprendimento gerarchico delle strutture.

Junhua Shi, Qingyun Sun, Haonan Yuan, Xingcheng FuWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Il paper presenta ADHint, un metodo di apprendimento per rinforzo che integra dinamicamente le difficoltà dei campioni e dei roll-out nella pianificazione degli indizi e nella stima del vantaggio, migliorando così l'efficienza dei campioni, la stabilità dell'addestramento e la capacità di generalizzazione del ragionamento.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Il paper propone la Directional Textual Inversion (DTI), un metodo che ottimizza solo la direzione degli embedding su una ipersfera unitaria per correggere l'inflazione della norma che compromette la fedeltà del prompt nella personalizzazione testo-immagine, migliorando al contempo l'interpolazione semantica rispetto alle tecniche tradizionali.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

← Precedente Successivo →

cs.LG