cs.LG Arbeiten | Gist.Science

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

Die Arbeit stellt VSPrefill vor, eine vertikal-schräg strukturierte, sparse-Attention-Methode mit leichtgewichtiger Indexierung, die durch adaptive Budgetzuweisung und On-the-Fly-Indexierung bei langen Kontexten (bis 128k) eine 4,95-fache Beschleunigung bei nur minimalen Genauigkeitsverlusten erreicht.

Chen Guanzhong2026-03-06💻 cs

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

Die Studie stellt MAD-SmaAt-GNet vor, ein multimodales, advektionsgesteuertes neuronales Netzwerk, das die Architektur SmaAt-UNet durch die Integration zusätzlicher Wettervariablen und physikalischer Advektionskomponenten erweitert und damit die Genauigkeit der Niederschlagsvorhersage im Vergleich zum Basismodell signifikant verbessert.

Samuel van Wonderen, Siamak Mehrkanoon2026-03-06💻 cs

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Die Studie analysiert, wie große Sprachmodelle durch widersprüchliche Few-Shot-Beispiele bei der Regelableitung in In-Context-Learning getäuscht werden, und identifiziert mittels linearer Sonden und Logit-Lens-Analyse spezifische Aufmerksamkeitsköpfe in frühen und späten Schichten, deren gezielte Ablation die Robustheit gegen solche Konflikte signifikant verbessert.

Difan Jiao, Di Wang, Lijie Hu2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

Die Arbeit stellt den Act-Observe-Rewrite (AOR)-Rahmen vor, der multimodale Sprachmodelle befähigt, Robotermanipulationsaufgaben durch das visuelle Beobachten von Fehlern und das automatische Neu-Schreiben des zugrunde liegenden Python-Steuerungscode zwischen den Versuchen zu meistern, ohne dabei Demonstrationen, Reward-Engineering oder Gradienten-Updates zu benötigen.

Vaishak Kumar2026-03-06💻 cs

Towards Explainable Deep Learning for Ship Trajectory Prediction in Inland Waterways

Diese Studie stellt einen erklärungsstarken LSTM-basierten Ansatz zur Vorhersage von Schiffsbahnen auf Binnengewässern vor, der zwar eine hohe Genauigkeit erreicht, jedoch zeigt, dass die durch das gelernte Schiffsdomänenmodell gewichteten Interaktionen nicht vollständig kausal mit den tatsächlichen Begegnungssituationen übereinstimmen.

Tom Legel, Dirk Söffker, Roland Schätzle + 1 more2026-03-06💻 cs

Dictionary Based Pattern Entropy for Causal Direction Discovery

Die Studie stellt ein neues Framework namens Dictionary Based Pattern Entropy (DPE) vor, das mithilfe von algorithmischer und Shannon-Informationstheorie kausale Richtungen in symbolischen Zeitreihen durch die Minimierung der Unsicherheit von mustergesteuerten Strukturen zuverlässig identifiziert.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Activity Recognition from Smart Insole Sensor Data Using a Circular Dilated CNN

Die Studie stellt ein System zur Aktivitätserkennung vor, das mithilfe eines kreisförmigen dilatierten CNN (CDCNN) multi-modale Sensordaten von Smart-Einlegesohlen verarbeitet und dabei eine Testgenauigkeit von 86,42 % bei der Klassifizierung von vier Aktivitäten in einer subjektunabhängigen Evaluation erreicht.

Yanhua Zhao2026-03-06💻 cs

Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

Die Studie stellt das Multi-Teacher-Distillation-Pretraining (MTDP) vor, ein Framework, das etablierte Modelle aus anderen Domänen nutzt, um EEG-Foundation-Modelle effizienter vorzutrainieren und dabei mit nur 25 % der üblichen Daten bessere Ergebnisse als selbstüberwachte Ansätze zu erzielen.

Chenqi Li, Yu Liu, Shuo Zhang + 2 more2026-03-06💻 cs

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Diese Arbeit untersucht die Kollatz-Stop-Zeit über $n \le 10^7$ mittels eines bayesschen hierarchischen Negativ-Binomial-Modells und einer mechanistischen Generatormethode, wobei die Ergebnisse zeigen, dass die Berücksichtigung modularer Restklassen die Verteilungsanpassung erheblich verbessert und das NB2-GLM die höchste Vorhersagegüte erzielt.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

AbAffinity: A Large Language Model for Predicting Antibody Binding Affinity against SARS-CoV-2

Die Studie stellt Ab-Affinity vor, ein neues Large Language Model, das mithilfe künstlicher Intelligenz die Bindungsaffinität von Antikörpern gegen SARS-CoV-2 präzise vorhersagt.

Faisal Bin Ashraf, Animesh Ray, Stefano Lonardi2026-03-06💻 cs

Augmenting representations with scientific papers

Diese Arbeit stellt ein kontrastives Lernframework vor, das Röntgenspektren mit wissenschaftlicher Literatur verbindet, um multimodale Repräsentationen zu schaffen, die nicht nur die Interpretation seltener astrophysikalischer Quellen beschleunigen, sondern auch die Schätzung physikalischer Variablen signifikant verbessern und neue Kandidaten für Follow-up-Untersuchungen identifizieren.

Nicolò Oreste Pinciroli Vago, Rocco Di Tella, Carolina Cuesta-Lázaro + 3 more2026-03-06✓ Author reviewed ⓘ🔭 astro-ph

Projected Hessian Learning: Fast Curvature Supervision for Accurate Machine-Learning Interatomic Potentials

Die Studie stellt das skalierbare Projektions-Hessische-Lernen (PHL) vor, ein Framework, das durch den Einsatz von Hessischen-Vektor-Produkten und stochastischen Projektionen effizientes, kräftekomplexes Kurvatur-Training für maschinelle Lernpotentiale ermöglicht, ohne die quadratische Speicher- und Rechenkomplexität expliziter Hessischer Matrizen zu benötigen.

Austin Rodriguez, Justin S. Smith, Sakib Matin + 3 more2026-03-06🔬 physics

The Volterra signature

Die Autoren stellen die Volterra-Signatur als eine interpretierbare, universell approximierende und rechnerisch effiziente Merkmalsdarstellung für nicht-Markovsche Zeitreihen vor, die durch lineare ODEs, Zeitreparametrisierungsinvarianz und Kernel-Methoden fundiert ist und in Experimenten klassische Signaturen übertrifft.

Paul P. Hager, Fabian N. Harang, Luca Pelizzari + 1 more2026-03-06💻 cs

Invariant Causal Routing for Governing Social Norms in Online Market Economies

Die Arbeit stellt das „Invariant Causal Routing"-Framework vor, das durch die Kombination von kontrafaktischem Denken und kausaler Invarianz stabile, interpretierbare und übertragbare Governance-Regeln entwickelt, um soziale Normen in Online-Marktwirtschaften effektiv zu steuern.

Xiangning Yu, Qirui Mi, Xiao Xue + 4 more2026-03-06💻 cs

A Fast Generative Framework for High-dimensional Posterior Sampling: Application to CMB Delensing

Die Autoren stellen ein schnelles generatives Framework für die hochdimensionale Bayes'sche Inferenz vor, das im Vergleich zu Diffusionsmodellen eine um eine Größenordnung schnellere Posterior-Abtastung ermöglicht und erfolgreich zur Entlinsung von CMB-Daten sowie zur robusten Generalisierung über kosmologische Parameter hinweg eingesetzt wird.

Hadi Sotoudeh, Pablo Lemos, Laurence Perreault-Levasseur2026-03-06🔭 astro-ph

An LLM-Guided Query-Aware Inference System for GNN Models on Large Knowledge Graphs

Die Arbeit stellt KG-WISE vor, ein LLM-gesteuertes Inferenzsystem für Graph-Neuronale Netze auf großen Wissensgraphen, das durch feinkörnige, abfragebewusste Modellkomponenten und semantische Subgraph-Extraktion die Inferenzgeschwindigkeit um das 28-fache steigert und den Speicherbedarf um 98 % senkt, ohne die Genauigkeit zu beeinträchtigen.

Waleed Afandi, Hussein Abdallah, Ashraf Aboulnaga + 1 more2026-03-06💻 cs

Oracle-efficient Hybrid Learning with Constrained Adversaries

Diese Arbeit stellt einen oracle-effizienten Lernalgorithmus für das hybride Online-Lernen unter eingeschränkten Adversaries vor, der durch eine neue Frank-Wolfe-Reduktion und Martingal-Schranken gleichzeitig statistische Optimalität und Recheneffizienz erreicht.

Princewill Okoroafor, Robert Kleinberg, Michael P. Kim2026-03-06💻 cs

Weather-Related Crash Risk Forecasting: A Deep Learning Approach for Heterogenous Spatiotemporal Data

Diese Studie stellt einen Deep-Learning-Ansatz vor, der auf einem Ensemble von ConvLSTM-Modellen basiert, um das Risiko wetterbedingter Verkehrsunfälle in North Carolina unter Verwendung heterogener räumlich-zeitlicher Daten präziser vorherzusagen als herkömmliche Methoden, insbesondere in hochriskanten Zonen.

Abimbola Ogungbire, Srinivas Pulugurtha2026-03-06💻 cs

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Das Paper stellt den Latent Particle World Model (LPWM) vor, ein selbstüberwachtes, objektszentriertes Weltmodell, das ohne manuelle Annotationen aus Videodaten Schlüsselmerkmale und Objektmasken autonom lernt, um stochastische Dynamiken zu modellieren und sowohl für die Videovorhersage als auch für entscheidungsorientierte Aufgaben wie zielgerichtete Imitationslernen eingesetzt zu werden.

Tal Daniel, Carl Qi, Dan Haramati + 5 more2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Diese Studie analysiert verschiedene Fusions- und Gruppierungsstrategien in Deep-Learning-Modellen zur Klassifizierung lokaler Klimazonen mittels multimodaler Fernerkundungsdaten und zeigt, dass eine hybride Fusionsmethode in Kombination mit Bandgruppierung und Label-Merging die höchste Genauigkeit von 76,6 % erzielt und insbesondere die Vorhersage für unterrepräsentierte Klassen verbessert.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

← Zurück Weiter →