cs.LG Arbeiten | Gist.Science

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Diese Arbeit untersucht die strukturelle Äquivalenz und Effizienz von grammatikbeschränktem Decodieren, indem sie einen Invarianzsatz für Orakel beweist, strukturelle Mehrdeutigkeitskosten quantifiziert, untere Schranken für den Rechenaufwand herleitet und die Verzerrung durch Hard-Masking mittels Doob-h-Transform analysiert, um Optimierungsmöglichkeiten für Transformer-Architekturen aufzuzeigen.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

An intuitive rearranging of the Yates covariance decomposition for probabilistic verification of forecasts with the Brier score

Die Arbeit stellt eine intuitive algebraische Umformung der Yates-Kovarianzzerlegung des Brier-Scores vor, die die Bedingungen für perfekte probabilistische Vorhersagen als gleichzeitige Übereinstimmung von Varianz, perfekter positiver Korrelation und Mittelwert der Ergebnisse transparent macht.

Bruno Hebling Vieira (Methods of Plasticity Research, Department of Psychology, University of Zurich, Zurich, Switzerland)2026-03-09🤖 cs.LG

IntSeqBERT: Learning Arithmetic Structure in OEIS via Modulo-Spectrum Embeddings

Die Arbeit stellt IntSeqBERT vor, ein dual-stream Transformer-Modell, das durch die Kombination von logarithmischen Magnituden- und Sinus/Kosinus-Modulo-Einbettungen für 100 Restklassen die Vorhersage ganzzahliger Folgen aus der OEIS signifikant verbessert und dabei eine 7,4-fache Steigerung der Genauigkeit bei der nächsten-Term-Vorhersage im Vergleich zu herkömmlichen token-basierten Modellen erreicht.

Kazuhisa Nakasho2026-03-09🤖 cs.LG

Autocorrelation effects in a stochastic-process model for decision making via time series

Die Studie zeigt, dass in einem stochastischen Entscheidungsmodell auf Basis von Zeitreihen negative Autokorrelation in reward-reichen Umgebungen und positive Autokorrelation in reward-armen Umgebungen die Entscheidungsqualität optimiert, während bei einer Summe der Gewinnwahrscheinlichkeiten von genau 1 keine Abhängigkeit von der Autokorrelation besteht.

Tomoki Yamagami, Mikio Hasegawa, Takatomo Mihana, Ryoichi Horisaki, Atsushi Uchida2026-03-09🔬 physics.optics

Towards Efficient and Stable Ocean State Forecasting: A Continuous-Time Koopman Approach

Die Studie zeigt, dass der Continuous-Time Koopman Autoencoder (CT-KAE) als leichtgewichtiges Ersatzmodell für die langfristige Vorhersage von Ozeanzuständen in einem zweischichtigen quasigeostrophischen System eine stabile und effiziente Alternative zu autoregressiven Transformer-Baselines darstellt, indem er nichtlineare Dynamiken in einen linearen latenten Raum projiziert und dabei über lange Zeiträume hinweg stabile Fehlerwachstumsraten sowie konsistente großskalige Statistiken gewährleistet.

Rares Grozavescu, Pengyu Zhang, Mark Girolami, Etienne Meunier2026-03-09🔬 physics.app-ph

When AI Levels the Playing Field: Skill Homogenization, Asset Concentration, and Two Regimes of Inequality

Die Arbeit entwickelt ein theoretisches Modell, das zeigt, wie generative KI zwar individuelle Fertigkeiten angleicht, aber durch die Verlagerung von Wertschöpfung auf konzentrierte komplementäre Vermögenswerte zu zwei unterschiedlichen Regimen der Ungleichheit führen kann, wobei die endgültige Wirkung von der Technologiearchitektur und den Arbeitsmarktinstitutionen abhängt.

Xupeng Chen, Shuchen Meng2026-03-09🤖 cs.AI

Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment

Die Arbeit stellt CDDS vor, einen neuartigen Algorithmus zur Kreuzmodalen Ausrichtung, der durch einen dualen UNet-Ansatz zur entkoppelten Trennung semantischer und modalspezifischer Informationen sowie eine Verteilungsstichprobenmethode zur Überbrückung der Modality Gap die wahre Semantik präziser ausrichtet und dabei bestehende State-of-the-Art-Methoden um 6,6 % bis 14,2 % übertrifft.

Xiang Ma, Lexin Fang, Litian Xu, Caiming Zhang2026-03-09🤖 cs.LG

FuseDiff: Symmetry-Preserving Joint Diffusion for Dual-Target Structure-Based Drug Design

Die Arbeit stellt FuseDiff vor, ein end-to-end Diffusionsmodell, das durch die gemeinsame Generierung eines Liganden und zwei pockenspezifischer Bindungsposen unter Wahrung der Symmetrie und topologischen Konsistenz den Stand der Technik für das strukturbasierte Design von Dual-Ziel-Wirkstoffen verbessert.

Jianliang Wu, Anjie Qiao, Zhen Wang, Zhewei Wei, Sheng Chen2026-03-09🤖 cs.LG

Learning Optimal Distributionally Robust Individualized Treatment Rules Integrating Multi-Source Data

Die Studie stellt eine prior-basierte, verteilungsrobuste Methode zur Schätzung individueller Behandlungsregeln vor, die durch die Integration multipler Datenquellen und die Berücksichtigung von Posterior-Shifts eine überlegene Entscheidungsqualität unter Worst-Case-Bedingungen gewährleistet.

Wenhai Cui, Wen Su, Xingqiu Zhao2026-03-09🤖 cs.LG

Machine Learning for analysis of Multiple Sclerosis cross-tissue bulk and single-cell transcriptomics data

Diese Studie entwickelt einen erklärbaren Machine-Learning-Pipeline, der Bulk- und Single-Cell-Transkriptomdaten aus Blut und Liquor integriert, um Multiple-Sklerose-Patienten präzise zu klassifizieren und durch SHAP-Analysen sowie Netzwerkanalysen neue pathogene Mechanismen und Biomarker wie nicht-kanonische Immun-Checkpoints und EBV-bezogene Signalwege aufzudecken.

Francesco Massafra, Samuele Punzo, Silvia Giulia Galfré, Alessandro Maglione, Simone Pernice, Stefano Forti, Simona Rolla, Marco Beccuti, Marinella Clerico, Corrado Priami, Alina Sîrbu2026-03-09🤖 cs.LG

Why Depth Matters in Parallelizable Sequence Models: A Lie Algebraic View

Diese Arbeit nutzt eine lie-algebraische Kontrollperspektive, um zu zeigen, dass die Tiefe von parallelisierbaren Sequenzmodellen direkt mit der Mächtigkeit ihrer Lie-Algebra-Erweiterungen korreliert und dass der Approximationsfehler mit zunehmender Tiefe exponentiell abnimmt.

Gyuryang Heo, Timothy Ngotiaoco, Kazuki Irie, Samuel J. Gershman, Bernardo Sabatini2026-03-09🤖 cs.LG

Prediction-Powered Conditional Inference

Diese Arbeit stellt eine Methode zur konditionalen Inferenz vor, die bei knappen gelabelten Daten und verfügbaren unlabeled Daten sowie einem Black-Box-Prädiktor durch eine Kombination aus kernelbasierter Lokalisierung und prädiktionsgestützter Varianzreduktion effiziente, nichtparametrische Schätzer und Konfidenzintervalle ermöglicht, die unabhängig von der Genauigkeit des Prädiktors gültig bleiben.

Yang Sui, Jin Zhou, Hua Zhou, Xiaowu Dai2026-03-09🤖 cs.LG

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

Die Arbeit stellt den Deep Koopman Speech Disentanglement Autoencoder (DKSD-AE) vor, ein strukturiertes Autoencoder-Modell, das durch die Kombination eines multi-stufigen Koopman-Operator-Lernmoduls mit Instanznormalisierung sprecher- und inhaltsabhängige Merkmale ohne textuelle Aufsicht effektiv trennt und dabei eine wettbewerbsfähige Sprecherüberprüfungsleistung bei deutlich weniger Parametern erzielt.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine Evers2026-03-09🤖 cs.LG

A Novel Hybrid Heuristic-Reinforcement Learning Optimization Approach for a Class of Railcar Shunting Problems

Die vorgestellte Arbeit entwickelt einen hybriden Heuristik-Verstärkungslern-Ansatz (HHRL), der Q-Learning mit heuristischen Methoden kombiniert, um die komplexe Optimierung von Rangiervorgängen in Güterbahnhöfen mit ein- und zweiseitigem Gleiszugang sowie mehreren Lokomotiven effizient zu lösen.

Ruonan Zhao, Joseph Geunes2026-03-09🤖 cs.LG

Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

Diese Studie entwickelt ein GeoAI-Hybrid-Framework, das MGWR, Random Forest und ST-GCN integriert, um die nichtlinearen Wechselwirkungen zwischen Landnutzung und multimodalen Verkehrsflüssen in verschiedenen städtischen Morphologien präzise zu modellieren und dabei die Bedeutung des städtebaulichen Kontexts für die Verkehrsplanung unterstreicht.

Olaf Yunus Laitinen Imanov2026-03-09🤖 cs.AI

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Die Arbeit stellt BISE vor, eine Methode, die es ermöglicht, durch Pruning vortrainierte, voreingenommene neuronale Netze in faire und robuste Unterstrukturen zu überführen, ohne zusätzliche Daten oder ein erneutes Training zu benötigen.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

On the Value of Tokeniser Pretraining in Physics Foundation Models

Die Studie zeigt, dass das Vor-Training von Tokenisern für Physik-Foundation-Modelle die Recheneffizienz und Genauigkeit erheblich steigert, insbesondere wenn das Vor-Training auf demselben physikalischen System wie die nachgelagerte Aufgabe erfolgt.

Hadi Sotoudeh, Payel Mukhopadhyay, Ruben Ohana, Michael McCabe, Neil D. Lawrence, Shirley Ho, Miles Cranmer2026-03-09🔭 astro-ph

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Dieses Paper stellt den ersten gekoppelten Verifikationsrahmen für heatmap-basierte Schlüsselpunkt-Detektoren vor, der mittels eines gemischt-ganzzahligen linearen Programms (MILP) die gemeinsame Abweichung aller Schlüsselpunkte unter Berücksichtigung ihrer Interdependenzen formal verifiziert und damit robustere Garantien liefert als bisherige entkoppelte Ansätze.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

Behavior-dLDS: A decomposed linear dynamical systems model for neural activity partially constrained by behavior

Die Arbeit stellt das behavior-decomposed linear dynamical systems (b-dLDS)-Modell vor, das großflächige neuronale Aktivität in verhaltensbezogene und interne latente Dynamiken zerlegt, um deren Beziehung zum Verhalten aufzuklären und dabei sowohl auf simulierten als auch auf großen zebrafisch-Hirndaten über bestehende Ansätze hinausgeht.

Eva Yezerets, En Yang, Misha B. Ahrens, Adam S. Charles2026-03-09🤖 cs.LG

RACAS: Controlling Diverse Robots With a Single Agentic System

Die Studie stellt RACAS vor, ein roboteragnostisches Agentic-System, das mittels natürlicher Sprache und großer Sprachmodelle diverse Roboterplattformen ohne Anpassung des Quellcodes steuern kann und so die Hürden für die Prototypenentwicklung senkt.

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber2026-03-09🤖 cs.AI

← Zurück Weiter →