cs.LG Arbeiten | Gist.Science

XConv: Low-memory stochastic backpropagation for convolutional layers

Die Arbeit stellt XConv vor, eine nahtlos integrierbare Methode zur drastischen Reduzierung des Speicherverbrauchs beim Training von Faltungsschichten durch komprimierte Aktivierungen und stochastische Gradientenschätzung, ohne dabei die Architektur einzuschränken oder die Leistung signifikant zu beeinträchtigen.

Anirudh Thatipelli, Jeffrey Sam, Mathias Louboutin, Ali Siahkoohi, Rongrong Wang, Felix J. HerrmannWed, 11 Ma🤖 cs.LG

A Survey on Decentralized Federated Learning

Diese Arbeit bietet eine umfassende Übersicht über dezentriertes Federated Learning (DFL) von 2018 bis 2026, klassifiziert die Methoden in traditionelle und blockchain-basierte Ansätze, entwickelt eine einheitliche, herausforderungsorientierte Taxonomie und identifiziert kritische Forschungsbedarfslücken in Bezug auf Topologie, Privatsphäre, Anreize und Modellziele.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Diese Arbeit beweist erstmals, dass stark überparametrisierte Convolutional Neural Networks durch die Anwendung verallgemeinerter Zufalls-Teilsummen-Probleme strukturierte „Winning Lottery Tickets" enthalten, die kleinere Netzwerke approximieren können, ohne trainiert zu werden.

Arthur da Cunha, Francesco d'Amore, Emanuele NataleWed, 11 Ma🤖 cs.LG

Provable Filter for Real-world Graph Clustering

Die Arbeit stellt einen neuartigen, theoretisch fundierten Filter für das Graph-Clustering vor, der durch die Konstruktion homophiler und heterophiler Teilgraphen sowie die Anwendung von Low- und High-Pass-Filtern in der Lage ist, sowohl homophile als auch heterophile reale Graphen effektiv zu verarbeiten und dabei den aktuellen State-of-the-Art-Methoden überlegen ist.

Xuanting Xie, Erlin Pan, Zhao Kang, Wenyu Chen, Bingheng LiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Diese Arbeit stellt einen Deep-Learning-Ansatz vor, der durch die gemeinsame Entdeckung von Koordinaten und Flusskarten eine präzise und recheneffiziente Zeitintegration für Multiskalen-Systeme ermöglicht und dabei sowohl die Fitzhugh-Nagumo-Neuronenmodelle als auch die chaotische Kuramoto-Sivashinsky-Gleichung erfolgreich behandelt.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Die vorgestellte Arbeit führt Sparse Variational Student-t Processes (SVTP) ein, ein skalierbares Framework, das durch zwei neue Inferenzalgorithmen und eine natürliche Gradientenoptimierung robuste und effiziente Modellierungen für Daten mit Ausreißern und schweren Verteilungsenden ermöglicht und dabei Sparse Gaussian Processes in Genauigkeit und Konvergenzgeschwindigkeit übertrifft.

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

HYGENE: A Diffusion-based Hypergraph Generation Method

Dieses Paper stellt HYGENE vor, eine bahnbrechende, auf Diffusionsmodellen basierende Methode, die durch einen schrittweisen lokalen Erweiterungsprozess realistische und vielfältige Hypergraphen generiert und damit erstmals tiefenlernbasierte Ansätze für die Hypergraph-Generierung ermöglicht.

Dorian Gailhard, Enzo Tartaglione, Lirida Naviner, Jhony H. GiraldoWed, 11 Ma🤖 cs.LG

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Die Arbeit stellt ein einheitliches Framework vor, das Quantisierung und Sparsifizierung als additives Rauschen modelliert und durch eine prinzipiengeleitete Denoisings-Transformation eine stabile Gradientenbahn schafft, wodurch das Training von neuronalen Netzen mit beliebiger Präzision und Sparsity, einschließlich sub-1-Bit-Architekturen, ermöglicht wird.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning

Die Arbeit stellt ARLBench vor, einen effizienten und flexiblen Benchmark für das Hyperparameter-Optimieren in Reinforcement Learning, der durch die Auswahl repräsentativer Teilaufgaben kostspielige Vergleiche verschiedener AutoRL-Methoden auch mit begrenzten Rechenressourcen ermöglicht.

Jannis Becktepe, Julian Dierkes, Carolin Benjamins, Aditya Mohan, David Salinas, Raghu Rajan, Frank Hutter, Holger Hoos, Marius Lindauer, Theresa EimerWed, 11 Ma🤖 cs.LG

DRUPI: Dataset Reduction Using Privileged Information

Die Arbeit stellt DRUPI vor, eine Methode zur Datensatzkondensation, die durch die Synthese privilegierter Informationen wie Feature- oder Attention-Labels die Leistung von reduzierten Datensätzen erheblich verbessert.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Diese Arbeit stellt ein unüberwachtes Lernverfahren vor, das Sequenzdaten durch die Faktorisierung latenter Transformationen in spärlich aktive rotations- und potentialbasierte Vektorfelder analysiert, um damit neuartige entkoppelte Repräsentationen zu erzeugen, die sowohl unabhängige Faktoren als auch Transformationprimitive erfassen und gleichzeitig state-of-the-art-Ergebnisse in Bezug auf Datenwahrscheinlichkeit und äquivariante Fehler erzielen.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Diese Arbeit stellt einen datengesteuerten Ansatz vor, der auf Control Barrier Functions und differenzierbarer Optimierung basiert, um die Verantwortungszuweisung von Agenten in multi-agenten Interaktionen zu lernen und so ein quantitatives Verständnis dafür zu gewinnen, wie stark Akteure ihr Verhalten anpassen, um die Sicherheit anderer zu gewährleisten.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Calabi-Yau metrics through Grassmannian learning and Donaldson's algorithm

Die Autoren stellen einen neuartigen, maschinellen Lernansatz vor, der Gradientenabstieg auf der Grassmann-Mannigfaltigkeit mit Donaldsons Algorithmus kombiniert, um effiziente Näherungen für Calabi-Yau-Metriken zu berechnen und dabei das Auftreten nichttrivialer lokaler Minima in der Dwork-Familie zu untersuchen.

Carl Henrik Ek, Oisin Kim, Challenger MishraWed, 11 Ma🤖 cs.LG

Adaptive and Stratified Subsampling for High-Dimensional Robust Estimation

Diese Arbeit stellt zwei Subsampling-Schätzer, Adaptive Importance Sampling und Stratified Sub-sampling, für die robuste hochdimensionale Regression unter schweren Verteilungen, Kontamination und zeitlicher Abhängigkeit vor, schließt die Lücke zwischen Theorie und Algorithmus durch präzise Konvergenzgarantien und ermöglicht gültige Konfidenzintervalle, wobei empirische Ergebnisse eine signifikante Fehlerreduktion im Vergleich zu herkömmlichen Methoden zeigen.

Prateek Mittal, Joohi ChauhanWed, 11 Ma🤖 cs.LG

Scalable Message Passing Neural Networks: No Need for Attention in Large Graph Representation Learning

Die Autoren stellen skalierbare Message-Passing-Neuronale Netze (SMPNNs) vor, die durch den Ersatz des aufwendigen Aufmerksamkeitsmechanismus durch standardmäßige Faltungsoperationen in Pre-Layer-Normalisierung-Blöcken tiefe, leistungsfähige Graph-Neuronale Netze für große Graphen ermöglichen und dabei theoretisch fundierte Lösungen für das Oversmoothing-Problem bieten.

Haitz Sáez de Ocáriz Borde, Artem Lukoianov, Anastasis Kratsios, Michael Bronstein, Xiaowen DongWed, 11 Ma🤖 cs.LG

SPDIM: Source-Free Unsupervised Conditional and Label Shift Adaptation in EEG

Die Arbeit stellt SPDIM vor, einen parameter-effizienten geometrischen Deep-Learning-Ansatz, der auf der SPD-Mannigfaltigkeit basiert und durch Informationsmaximierung die Generalisierung von EEG-Modellen unter label-shifts und anderen Verteilungsverschiebungen ohne Ziel-Daten-Labels verbessert.

Shanglin Li, Motoaki Kawanabe, Reinmar J. KoblerWed, 11 Ma🤖 cs.LG

Prognostics for Autonomous Deep-Space Habitat Health Management under Multiple Unknown Failure Modes

Diese Arbeit stellt einen unüberwachten Prognostik-Rahmen vor, der mittels eines Expectation-Maximization-Algorithmus und gewichteter funktionaler Regression sowohl latente Ausfallmodi identifiziert als auch informative Sensoren auswählt, um die verbleibende Nutzungsdauter in autonomen Tiefraumhabitaten unter Bedingungen ungelabelter Daten und unbekannter Ausfallmechanismen präzise vorherzusagen.

Benjamin Peters, Ayush Mohanty, Xiaolei Fang, Stephen K. Robinson, Nagi GebraeelWed, 11 Ma🤖 cs.LG

Morphological-Symmetry-Equivariant Heterogeneous Graph Neural Network for Robotic Dynamics Learning

Die Autoren stellen MS-HGNN vor, ein morphologisch-symmetrie-äquivariantes heterogenes Graph-Neurales Netzwerk, das kinematische Strukturen und morphologische Symmetrien in Roboter-Dynamikmodellen integriert, um Generalisierbarkeit und Effizienz zu steigern, was durch theoretische Beweise und Experimente mit echten und simulierten Quadruped-Robotern validiert wurde.

Fengze Xie, Sizhe Wei, Yue Song, Yisong Yue, Lu GanWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Die Arbeit stellt CuriousBot vor, ein mobiles Explorationsystem, das durch einen 3D-relationalen Objektgraphen interaktives Erkunden komplexer Umgebungen ermöglicht und dabei VLM-basierte Ansätze in Bezug auf Generalisierung und Effektivität übertrifft.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Molecular Fingerprints Are Strong Models for Peptide Function Prediction

Die Studie widerlegt die Annahme, dass für die Vorhersage von Peptidfunktionen komplexe Modelle zur Erfassung langreichweitiger Wechselwirkungen notwendig sind, und zeigt, dass einfache, lokale molekulare Fingerabdrücke in Kombination mit LightGBM auf 132 Datensätzen State-of-the-Art-Ergebnisse erzielen, die fortschrittliche Graph-Neural-Networks und Transformer-Modelle übertreffen.

Jakub Adamczyk, Piotr Ludynia, Wojciech CzechWed, 11 Ma🤖 cs.LG

Weiter →