stat.ML Arbeiten | Gist.Science

ContextBench: Modifying Contexts for Targeted Latent Activation

Das Paper stellt ContextBench vor, einen Benchmark zur Bewertung von Methoden, die gezielt latente Merkmale in Sprachmodellen aktivieren, und zeigt, dass eine Kombination aus evolutionärer Prompt-Optimierung, LLM-Unterstützung und Diffusionsmodellen den besten Kompromiss zwischen Wirksamkeit und sprachlicher Flüssigkeit erzielt.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac BloomMon, 09 Ma🤖 cs.AI

Iterative Quantum Feature Maps

Die Arbeit stellt Iterative Quantum Feature Maps (IQFMs) vor, ein hybrides Quanten-Klassisches Framework, das durch den schichtweisen Aufbau flacher Quanten-Feature-Maps mit klassischen Gewichten und kontrastivem Lernen tiefere Architekturen ohne Optimierung variationaler Parameter ermöglicht, um Rauschen zu reduzieren und die Leistung auf realer Hardware zu verbessern.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka OshimaMon, 09 Ma⚛️ quant-ph

Learning the action for long-time-step simulations of molecular dynamics

Die Autoren schlagen einen datengetriebenen, strukturerhaltenden maschinellen Lernalgorithmus vor, der die mechanische Wirkung eines Systems lernt, um physikalisch korrekte Molekulardynamik-Simulationen mit großen Zeitschritten zu ermöglichen und dabei Energieerhaltung sowie Reversibilität zu gewährleisten.

Filippo Bigi, Johannes Spies, Michele CeriottiMon, 09 Ma🔬 cond-mat.mtrl-sci

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Dieses Paper stellt Kernel VICReg vor, ein neuartiges selbstüberwachtes Lernframework, das das VICReg-Ziel in einen reproduzierenden Kernel-Hilbert-Raum überführt, um durch die Kernelisierung von Varianz-, Invarianz- und Kovarianztermen nichtlineare Abhängigkeiten besser zu erfassen und so die Leistung bei Datensätzen mit nichtlinearer Struktur oder begrenzten Stichproben im Vergleich zu euklidischen Methoden zu verbessern.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul FieguthMon, 09 Ma🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Die Arbeit stellt den Tensor Atomic Cluster Expansion (TACE) vor, ein neues äquivariantes atomistisches Machine-Learning-Modell, das skalare und tensorielle Eigenschaften in kartesischem Raum vereinheitlicht, um komplexe Kopplungen zu vermeiden und gleichzeitig präzise Vorhersagen für eine breite Palette von physikalischen Observablen und Systemen zu ermöglichen.

Zemin Xu, Wenbo Xie, P. HuMon, 09 Ma🔬 cond-mat.mtrl-sci

Learning Centre Partitions from Summaries

Diese Arbeit stellt einen sequenziellen, testbasierten Algorithmus namens „Clusters-of-Centres" vor, der auf multivariaten Cochran-Tests und einem Multi-Round-Bootstrap-Verfahren basiert, um heterogene Zentren in verteilten Studien automatisch zu gruppieren und dabei die wahre Partition mit hoher Wahrscheinlichkeit wiederherzustellen.

Zinsou Max Debaly, Jean-Francois Ethier, Michael H. Neumann, Félix Camirand-LemyreMon, 09 Ma🔢 math

Self-Speculative Masked Diffusions

Die vorgestellte Arbeit führt „Self-Speculative Masked Diffusions" ein, eine neue Klasse diskreter generativer Modelle, die durch einen kausalen Aufmerksamkeitsmechanismus und integrierte spekulative Stichproben die Anzahl der erforderlichen Vorwärtsdurchläufe im Vergleich zu herkömmlichen Masked-Diffusion-Modellen um etwa die Hälfte reduziert, ohne dabei die Probenqualität zu beeinträchtigen.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud DoucetMon, 09 Ma🤖 cs.LG

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Diese Arbeit zeigt, dass die Einführung eines externen Verifizierers für synthetische Daten das Phänomen des „Model Collapse" verhindert und kurzfristige Verbesserungen ermöglicht, wobei die langfristigen Parameter jedoch auf das „Wissenszentrum" des Verifizierers konvergieren.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng XuMon, 09 Ma🤖 cs.LG

CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering

Der vorgestellte CADM-Algorithmus verbessert das Clustering kategorialer und gemischter Daten durch eine cluster-spezifische, adaptive Distanzmetrik, die die unterschiedlichen Attributverteilungen innerhalb der Cluster berücksichtigt und in Experimenten auf fourteen Datensätzen die beste Leistung erzielt.

Taixi Chen, Yiu-ming Cheung, Yiqun ZhangMon, 09 Ma🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

Das Paper stellt DAISI vor, einen skalierbaren Filteralgorithmus auf Basis von stochastischen Interpolanten und generativen Modellen, der durch einen inversen Sampling-Schritt und beobachtungsgeleitete Bedingung eine präzise Datenassimilation in hochdimensionalen, nichtlinearen Systemen ermöglicht, ohne dass das generative Prior-Modell bei jedem Schritt neu trainiert werden muss.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik LindstenMon, 09 Ma🤖 cs.LG

Data-Driven Global Sensitivity Analysis for Engineering Design Based on Individual Conditional Expectations

Diese Arbeit stellt eine neue globale Sensitivitätsanalyse vor, die auf Individual Conditional Expectation (ICE)-Kurven basiert, um die durch Mittelwertbildung bei Partial Dependence Plots (PDP) verschleierten Interaktionseffekte in datengetriebenen Ingenieurmodellen, insbesondere im Luft- und Raumfahrtbereich, präziser zu erfassen und zu quantifizieren.

Pramudita Satria Palar, Paul Saves, Rommel G. Regis, Koji Shimoyama, Shigeru Obayashi, Nicolas Verstaevel, Joseph MorlierMon, 09 Ma🤖 cs.AI

Learning Optimal Distributionally Robust Individualized Treatment Rules Integrating Multi-Source Data

Die Studie stellt eine prior-basierte, verteilungsrobuste Methode zur Schätzung individueller Behandlungsregeln vor, die durch die Integration multipler Datenquellen und die Berücksichtigung von Posterior-Shifts eine überlegene Entscheidungsqualität unter Worst-Case-Bedingungen gewährleistet.

Wenhai Cui, Wen Su, Xingqiu ZhaoMon, 09 Ma🤖 cs.LG

Prediction-Powered Conditional Inference

Diese Arbeit stellt eine Methode zur konditionalen Inferenz vor, die bei knappen gelabelten Daten und verfügbaren unlabeled Daten sowie einem Black-Box-Prädiktor durch eine Kombination aus kernelbasierter Lokalisierung und prädiktionsgestützter Varianzreduktion effiziente, nichtparametrische Schätzer und Konfidenzintervalle ermöglicht, die unabhängig von der Genauigkeit des Prädiktors gültig bleiben.

Yang Sui, Jin Zhou, Hua Zhou, Xiaowu DaiMon, 09 Ma🤖 cs.LG

Behavior-dLDS: A decomposed linear dynamical systems model for neural activity partially constrained by behavior

Die Arbeit stellt das behavior-decomposed linear dynamical systems (b-dLDS)-Modell vor, das großflächige neuronale Aktivität in verhaltensbezogene und interne latente Dynamiken zerlegt, um deren Beziehung zum Verhalten aufzuklären und dabei sowohl auf simulierten als auch auf großen zebrafisch-Hirndaten über bestehende Ansätze hinausgeht.

Eva Yezerets, En Yang, Misha B. Ahrens, Adam S. CharlesMon, 09 Ma🤖 cs.LG

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Diese Arbeit zeigt, dass das Training eines starken Modells auf den unvollkommenen Vorhersagen eines schwachen Lehrers mittels zufälliger Merkmals-Ridge-Regression die Skalierungsgesetze des Testfehlers signifikant verbessern kann, sodass der Schüler selbst dann optimale Raten erreicht, wenn der Lehrer keine Fehlerreduktion mit zunehmender Stichprobengröße aufweist.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco MondelliMon, 09 Ma🤖 cs.LG

Design Experiments to Compare Multi-armed Bandit Algorithms

Die vorgestellte Arbeit schlägt das „Artificial Replay"-Verfahren vor, ein neues Experimentdesign, das durch Wiederverwendung aufgezeichneter Belohnungen die Anzahl notwendiger Nutzerinteraktionen zur Vergleichung von Multi-armed-Bandit-Algorithmen nahezu halbiert und dabei einen unverzerrten Schätzer mit sublinear wachsender Varianz liefert.

Huiling Meng, Ningyuan Chen, Xuefeng GaoMon, 09 Ma🤖 cs.LG

Large deviation principles for convolutional Bayesian neural networks

Diese Arbeit etabliert erstmals ein Prinzip großer Abweichungen für Faltungs-Neuronale Netze im unendlichen Kanal-Limit, indem sie ein solches Prinzip für die bedingten Kovarianzmatrizen unter einem Gaußschen Prior und für die daraus abgeleitete Posterior-Verteilung herleitet.

Federico Bassetti, Vassili De Palma, Lucia LadelliMon, 09 Ma🔢 math

Agnostic learning in (almost) optimal time via Gaussian surface area

Diese Arbeit verbessert die bekannten Schranken für das agnostische Lernen von Konzeptklassen mit begrenzter Gaußscher Oberflächenfläche, indem sie zeigt, dass ein Polynomgrad von $\tilde{O}(\Gamma^2 / \varepsilon^2)$ ausreicht, was zu nahezu optimalen Komplexitätsergebnissen für das Lernen von Polynom-Threshold-Funktionen im statistischen Abfragemodell führt.

Lucas Pesenti, Lucas Slot, Manuel WiedmerMon, 09 Ma🤖 cs.LG

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Der Artikel beweist, dass Predictive Coding Graphs (PCGs) eine mathematische Obermenge von Feedforward-Neuronalen Netzen darstellen und sie dadurch stärker in den Bereich des maschinellen Lernens einordnen.

Björn van ZwolMon, 09 Ma🤖 cs.AI

Gradient Flow Polarizes Softmax Outputs towards Low-Entropy Solutions

Die Arbeit zeigt, dass die Gradientenfluss-Dynamik in Softmax-basierten Modellen, die als Kernbaustein von Self-Attention dienen, die Optimierung universell zu Lösungen mit niedriger Entropie treibt und damit Phänomene wie Attention Sinks und massive Aktivierungen theoretisch erklärt.

Aditya Varre, Mark Rofin, Nicolas FlammarionMon, 09 Ma🤖 cs.LG

← Zurück Weiter →