Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Diese Arbeit stellt einen praktischen Leitfaden zur Bewertung und Optimierung von Multi-Agenten-KI-Einkaufsassistenten vor, der eine mehrdimensionale Evaluierungsrubrik, eine kalibrierte LLM-as-Judge-Pipeline sowie zwei komplementäre Prompt-Optimierungsstrategien (Sub-agent GEPA und MAMuT GEPA) für die Produktionsskalierung umfasst.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

Controllable Generative Sandbox for Causal Inference

Das Paper stellt CausalMix vor, ein variationsbasiertes generatives Framework, das durch die Kombination von Misch-Gauß-Verteilungen und datentypspezifischen Dekodern sowohl realistische gemischte tabellarische Daten erzeugt als auch eine präzise, unabhängige Kontrolle über kausale Mechanismen wie Überlappung, Konfundierung und Heterogenität des Behandlungseffekts ermöglicht.

Qi Zhang, Harsh Parikh, Ashley Naimi + 3 more2026-03-05🤖 cs.LG

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Das Paper stellt SENTINEL vor, einen leichten Verifikationsmechanismus auf Basis von Exponential Moving Averages, der die Integrität beim dezentralen Pipeline-Parallel-Training über unzuverlässige Knoten sicherstellt, ohne Berechnungen zu duplizieren, und dabei theoretische Konvergenzgarantien sowie erfolgreiche Experimente mit 4-Milliarden-Parameter-Modellen bietet.

Hadi Mohaghegh Dolatabadi, Thalaiyasingam Ajanthan, Sameera Ramasinghe + 5 more2026-03-05🤖 cs.LG

Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration

Diese Arbeit stellt einen hybriden Belief-Reinforcement-Learning-Ansatz vor, der die räumliche Unsicherheitsschätzung mittels Log-Gaussian-Cox-Prozessen mit dem effizienten Trajektorienlernen eines Soft Actor-Critic-Agenten kombiniert, um durch dualen Wissenstransfer und koordinierte Abdeckung die Leistung mehrerer autonomer Agenten bei der Erkundung heterogener räumlicher Nachfrage signifikant zu verbessern.

Danish Rizvi, David Boyle2026-03-05🤖 cs.LG

Freezing of Gait Prediction using Proactive Agent that Learns from Selected Experience and DDQN Algorithm

Diese Studie stellt ein auf Double Deep Q-Networks und priorisierter Erfahrungswiederholung basierendes Reinforcement-Learning-Framework vor, das Freezing-of-Gait-Episoden bei Parkinson-Patienten zuverlässig bis zu 8,72 Sekunden im Voraus vorhersagt, um proaktive Interventionen in tragbaren Assistenzsystemen zu ermöglichen.

Septian Enggar Sukmana, Sang Won Bae, Tomohiro Shibata2026-03-05🤖 cs.LG

Local Shapley: Model-Induced Locality and Optimal Reuse in Data Valuation

Die Arbeit stellt „Local Shapley" vor, ein Framework, das die inhärente Lokalität moderner Modelle nutzt, um die Shapley-Wert-Berechnung von einer exponentiell komplexen globalen Aufgabe auf effiziente, modellinduzierte Teilmenge-Prozesse zu reduzieren, und führt dabei den optimalen Algorithmus LSMR sowie dessen Monte-Carlo-Erweiterung LSMR-A ein, die die Anzahl notwendiger Neutraining-Schritte drastisch verringern, ohne die Genauigkeit zu beeinträchtigen.

Xuan Yang, Hsi-Wen Chen, Ming-Syan Chen + 1 more2026-03-05🤖 cs.AI

A Stein Identity for q-Gaussians with Bounded Support

Dieses Paper leitet eine neue Stein-Identität für q-Gaußsche Verteilungen mit beschränktem Träger her, die durch die Verwendung von Eskort-Verteilungen und die Erweiterung bestehender Theoreme Gradientenschätzer mit nahezu gleicher Form wie bei Gaußschen Verteilungen ermöglicht und so die Varianz in Anwendungen wie dem Bayesschen Deep Learning reduziert.

Sophia Sklaviadis, Thomas Moellenhoff, Andre F. T. Martins + 2 more2026-03-05🤖 cs.LG