A Survey on Decentralized Federated Learning

Diese Arbeit bietet eine umfassende Übersicht über dezentriertes Federated Learning (DFL) von 2018 bis 2026, klassifiziert die Methoden in traditionelle und blockchain-basierte Ansätze, entwickelt eine einheitliche, herausforderungsorientierte Taxonomie und identifiziert kritische Forschungsbedarfslücken in Bezug auf Topologie, Privatsphäre, Anreize und Modellziele.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Diese Arbeit stellt einen Deep-Learning-Ansatz vor, der durch die gemeinsame Entdeckung von Koordinaten und Flusskarten eine präzise und recheneffiziente Zeitintegration für Multiskalen-Systeme ermöglicht und dabei sowohl die Fitzhugh-Nagumo-Neuronenmodelle als auch die chaotische Kuramoto-Sivashinsky-Gleichung erfolgreich behandelt.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

Das Paper stellt SPDL vor, eine Open-Source-Bibliothek, die durch die vollständige Freigabe des Python-GIL und effiziente Parallelisierung die Datenübertragung auf GPUs erheblich beschleunigt und dabei im Vergleich zu PyTorch DataLoader signifikant weniger CPU-Ressourcen und Speicher verbraucht.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Diese Doktorarbeit stellt neuartige, kosteneffiziente Methoden zur Zuverlässigkeitsbewertung und -verbesserung von Deep-Learning-Hardware-Beschleunigern vor, darunter analytische Bewertungswerkzeuge, optimierte Kompromisse zwischen Quantisierung und Fehlertoleranz sowie die Echtzeit-Technik AdAM, die eine hohe Zuverlässigkeit bei deutlich reduzierten Hardwarekosten ermöglicht.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Das Paper stellt ARKV vor, einen adaptiven und ressourceneffizienten Rahmen zur Verwaltung des KV-Caches bei Large Language Models, der durch dynamische Zuweisung von Präzisionsniveaus basierend auf Aufmerksamkeitsdynamiken und Token-Wichtigkeit die Speichernutzung um den Faktor vier reduziert, während die Genauigkeit bei langen Kontexten nahezu erhalten bleibt.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

Die Arbeit stellt RSH-SpMM vor, ein fein abgestimmtes hybrides Framework für die Sparse-Matrix-Matrix-Multiplikation auf GPUs, das durch adaptive Zeilenpartitionierung und eine RS-Tile-Darstellung Tensor-Kern-Effizienz mit der Verarbeitung unregelmäßiger Sparsity-Strukturen kombiniert und dabei im Vergleich zu aktuellen State-of-the-Art-Methoden Beschleunigungen von 1,27- bis 6,13-fach erzielt.

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Diese Arbeit führt eine systematische Überprüfung und Leistungsbewertung von Federated-Learning-Methoden in Edge-Computing-Umgebungen durch, wobei verschiedene Algorithmen hinsichtlich Genauigkeit, Konvergenz und Ressourceneffizienz verglichen werden, um bestehende Herausforderungen wie Datenheterogenität zu identifizieren und eine Forschungsagenda für zukünftige robuste Systeme zu entwickeln.

Sales Aribe Jr., Gil Nicholas CagandeWed, 11 Ma🤖 cs.AI

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

Die Arbeit stellt Auralink SDC vor, ein Edge-Architekturkonzept mit spezialisierten KI-Agenten, das durch Techniken wie confidence-kalibrierte autonome Fehlerbehebung und adaptive Retrieval-Augmented Reasoning die Zuverlässigkeit und Reaktionsgeschwindigkeit von EV-Ladeinfrastruktur signifikant verbessert und dabei 78 % autonome Störungsbehebung bei sub-50ms-Latenz erreicht.

Mohammed CherifiWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Die Arbeit stellt Kareto vor, einen adaptiven Optimierer für die mehrstufige Speicherkonfiguration von KV-Caches in LLM-Diensten, der durch effiziente Pareto-Frontier-Suche und feinkörnige Anpassung die Kosten, den Durchsatz und die Latenz unter variierenden Arbeitslasten signifikant verbessert.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Die Arbeit stellt Zipage vor, einen hochparallelen LLM-Inferenz-Engine, der durch die Kombination von tokenweiser KV-Cache-Komprimierung mit PagedAttention sowie fortschrittlichen Scheduling-Strategien den Speicherkonflikt bei komplexen Reasoning-Aufgaben löst und dabei über 2,1-fache Geschwindigkeitssteigerungen bei nur geringen Genauigkeitseinbußen erzielt.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Die Arbeit stellt FedLECC vor, eine leichte, cluster- und verlustgesteuerte Strategie zur Auswahl von Clients im Federated Learning, die unter nicht-IID-Bedingungen die Genauigkeit verbessert und gleichzeitig die Kommunikationskosten sowie die Anzahl der erforderlichen Runden signifikant reduziert.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Die Arbeit führt die qsqs-Ungleichung ein, um zu zeigen, dass Mixture-of-Experts-Modelle aufgrund einer doppelten Ineffizienz bei der Inferenz – nämlich fragmentierter Gewichtswiederverwendung und begrenztem HBM-Speicher für den KV-Cache – bei langen Kontexten strukturell gegenüber dichteren Modellen benachteiligt sind, was ihre Trainings-FLOP-Effizienz nicht auf die Laufzeitleistung überträgt.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Diese Arbeit demonstriert erstmals die direkte Programmierung von FP64-Tensor-Cores auf NVIDIA-GPUs zur Beschleunigung hochauflösender Finite-Elemente-Simulationen in der MFEM-Bibliothek, wodurch auf Exascale-Systemen bis zu eine Verdopplung der Leistung und signifikante Energieeffizienzgewinne erzielt werden.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs