cs.LG Arbeiten | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Diese Arbeit stellt einen hybriden Regler vor, der Deep Reinforcement Learning mit robuster, modellunabhängiger Extremwertregelung kombiniert, um die Leistungsfähigkeit von Steuerungssystemen für nichtlineare, zeitvariierende Prozesse zu verbessern und gleichzeitig deren Robustheit gegenüber schnellen Modelländerungen zu gewährleisten.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

Das Paper stellt den Latent Speech-Text Transformer (LST) vor, der durch die Aggregation von Sprach-Token zu latenten Patches die Sequenzlängen von Sprache und Text angleicht, was sowohl die Recheneffizienz als auch die Leistung in Sprach- und Textaufgaben im Vergleich zu herkömmlichen autoregressiven Modellen signifikant verbessert.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Das Paper stellt AlphaApollo vor, ein System für tiefes agentices Denken, das durch die Orchestrierung von Modellen und Tools mittels mehrstufiger agenter Reasoning-, Lern- und Evolutionsmechanismen die Leistung von Foundation-Modellen bei komplexen mathematischen Aufgaben signifikant verbessert.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Die Arbeit stellt das neue Forschungsgebiet der Domänengeneralisierung für LiDAR-basierte semantische Segmentierung unter verrauschten Labels vor, führt einen Benchmark ein und schlägt mit DuNe ein dual-sichtiges Framework vor, das durch konsistente Feature-Lernung und konfidenzbasiertes Filtern robuste Ergebnisse unter Domänenverschiebungen und Labelrauschen erzielt.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Das Paper stellt RECODE vor, einen agentenbasierten Rahmen, der durch das Reverse-Engineering von visuellen Eingaben in ausführbaren Code (Derendering) eine verifizierbare und präzise multimodale Reasoning-Fähigkeit für strukturierte Grafiken wie Diagramme und Schaubilder ermöglicht.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Die Studie stellt fest, dass das Beschneiden von Experten (Pruning) für generative Aufgaben überlegen ist, und schlägt die Methode REAP vor, die durch die Kombination von Router-Gate-Werten und Experten-Aktivierungsnormen eine nahezu verlustfreie Kompression von Mixture-of-Experts-Modellen ermöglicht.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Das Paper stellt RL-100 vor, ein leistungsfähiges Reinforcement-Learning-Framework für Roboter, das durch die Kombination von Diffusion-Policies mit PPO und Konsistenz-Distillation in acht realen Aufgaben eine 100-prozentige Erfolgsrate erzielt und dabei menschliche Operateure in Geschwindigkeit und Robustheit übertrifft.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

Die Arbeit stellt Bradley-Terry Policy Optimization (BTPO) vor, einen neuartigen Optimierungsansatz, der durch die Ableitung eines konsistenten Monte-Carlo-Schätzers für den Gradienten der Likelihood-Funktion das Training von generativen Präferenzmodellen mit Chain-of-Thought-Verständnis für nicht-verifizierbare Aufgaben ermöglicht und dabei bestehende heuristische Methoden übertrifft.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

Die Arbeit stellt AffPCL vor, einen personalisierten kollaborativen Lernrahmen für heterogene Agenten, der durch affinitätsbasierte Varianzreduktion und Korrekturmechanismen die Stichprobenkomplexität im Vergleich zum unabhängigen Lernen um einen Faktor von $\max\{n^{-1}, \delta\}$ senkt und dabei nahtlos zwischen linearem Speedup bei Homogenität und unabhängiger Lernleistung bei Heterogenität interpoliert, ohne dass Vorwissen über das System erforderlich ist.

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Die Arbeit stellt FALCON vor, ein neues Paradigma für Vision-Language-Action-Modelle, das durch die Integration von räumlichen Grundwissen aus 3D-Spatial-Foundation-Modellen in den Aktionskopf die Lücke zwischen 2D-Vision und 3D-Aktion schließt und damit in Simulationen sowie realen Umgebungen neue Maßstäbe in Bezug auf Generalisierung und Robustheit setzt.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Der Artikel stellt GraphKeeper vor, einen neuartigen Ansatz für das domain-incrementale Lernen auf Graphen, der durch Wissensentwirrung und -bewahrung das katastrophale Vergessen verhindert und damit signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Die vorgestellte Arbeit zeigt, dass strukturierte Regularisierung, robuste Vorverarbeitung und effiziente Optimierung die Überanpassung bei parametrischen Nachkalibrierungsmethoden für Mehrklassenklassifikation effektiv verhindern und damit signifikante Verbesserungen gegenüber bestehenden Techniken wie der Temperatur- oder Vektorskalierung ermöglichen.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Die Arbeit stellt LTSV vor, eine leichte Methode zur Bewertung von Zeitreihendaten für Zeitreihen-Foundation-Modelle, die durch In-Context-Finetuning und temporale Blockaggregation eine effiziente und genaue Schätzung des Datenbeitrags unter Berücksichtigung zeitlicher Abhängigkeiten ermöglicht.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Diese Arbeit stellt eine Methode zur Klassifizierung des Lagerzustands mittels In-Context-Learning mit Zeitreihen-Grundmodellen vor, die eine feineinstellungsfreie Analyse von Vibrationsdaten unter verschiedenen Betriebsbedingungen ermöglicht und den Weg für AI-gestützte Wartungssysteme als Service ebnet.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Die Arbeit stellt einen provably exakten, periodisch asynchronen On-Policy-Ansatz vor, der durch die Entkopplung von Inferenz und Training sowie eine einheitliche Tri-Modell-Architektur die End-to-End-Trainingsdurchsatzrate von LLMs auf NPU-Plattformen um das Drei- bis Fünffache steigert, ohne die Genauigkeit zu beeinträchtigen.

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Diese Studie stellt das Decoder-DeepONet (DDON), ein interpretierbares Operator-Learning-Modell, vor, das die Genauigkeit und Generalisierbarkeit bei der Rekonstruktion elektrischer Feldprofile aus EFISH-Signalen in Entladungen im Vergleich zu herkömmlichen neuronalen Netzen und klassischen Methoden signifikant verbessert und dabei auch mit unvollständigen Eingabedaten robust funktioniert.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Diese Studie stellt ELERAG vor, eine für den Bildungssektor optimierte Retrieval-Augmented-Generation-Architektur, die durch die Integration von Entity Linking und einer hybriden Neuordnung auf Basis von Reciprocal Rank Fusion die faktenbasierte Genauigkeit bei der Beantwortung von Fragen auf Italienisch in domänenspezifischen Kontexten signifikant verbessert.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

Die Arbeit stellt SA²GFM vor, ein robustes Framework für Graph-Grundmodelle, das durch strukturaware semantische Augmentation, einen informationsbottleneck-basierten Selbstüberwachungsmechanismus und ein adaptives Experten-Routing die Generalisierungsfähigkeit und Widerstandsfähigkeit gegenüber Domänenrauschen sowie adversariellen Angriffen verbessert.

Junhua Shi, Qingyun Sun, Haonan Yuan, Xingcheng FuWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Die Arbeit stellt ADHint vor, eine adaptive Methode für das Reinforcement Learning, die Schwierigkeitspriors nutzt, um Hint-Raten dynamisch anzupassen und Gradienten zu modulieren, wodurch die Stabilität des Lernens verbessert und eine bessere Balance zwischen Exploration und Imitation erreicht wird.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Die Arbeit stellt Directional Textual Inversion (DTI) vor, eine Methode zur Personalisierung von Text-zu-Bild-Generierung, die durch die Optimierung ausschließlich der Richtungsvektoren von Embeddings auf einer hypersphärischen Mannigfaltigkeit statt ihrer Norm die Texttreue verbessert und eine kohärente Interpolation zwischen gelernten Konzepten ermöglicht.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

← Zurück Weiter →

cs.LG