cs.DC Arbeiten | Gist.Science

A Survey on Decentralized Federated Learning

Diese Arbeit bietet eine umfassende Übersicht über dezentriertes Federated Learning (DFL) von 2018 bis 2026, klassifiziert die Methoden in traditionelle und blockchain-basierte Ansätze, entwickelt eine einheitliche, herausforderungsorientierte Taxonomie und identifiziert kritische Forschungsbedarfslücken in Bezug auf Topologie, Privatsphäre, Anreize und Modellziele.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Diese Arbeit stellt einen Deep-Learning-Ansatz vor, der durch die gemeinsame Entdeckung von Koordinaten und Flusskarten eine präzise und recheneffiziente Zeitintegration für Multiskalen-Systeme ermöglicht und dabei sowohl die Fitzhugh-Nagumo-Neuronenmodelle als auch die chaotische Kuramoto-Sivashinsky-Gleichung erfolgreich behandelt.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

Das Paper stellt SPDL vor, eine Open-Source-Bibliothek, die durch die vollständige Freigabe des Python-GIL und effiziente Parallelisierung die Datenübertragung auf GPUs erheblich beschleunigt und dabei im Vergleich zu PyTorch DataLoader signifikant weniger CPU-Ressourcen und Speicher verbraucht.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Diese Doktorarbeit stellt neuartige, kosteneffiziente Methoden zur Zuverlässigkeitsbewertung und -verbesserung von Deep-Learning-Hardware-Beschleunigern vor, darunter analytische Bewertungswerkzeuge, optimierte Kompromisse zwischen Quantisierung und Fehlertoleranz sowie die Echtzeit-Technik AdAM, die eine hohe Zuverlässigkeit bei deutlich reduzierten Hardwarekosten ermöglicht.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Das Paper stellt ARKV vor, einen adaptiven und ressourceneffizienten Rahmen zur Verwaltung des KV-Caches bei Large Language Models, der durch dynamische Zuweisung von Präzisionsniveaus basierend auf Aufmerksamkeitsdynamiken und Token-Wichtigkeit die Speichernutzung um den Faktor vier reduziert, während die Genauigkeit bei langen Kontexten nahezu erhalten bleibt.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs

Die Arbeit stellt RSH-SpMM vor, ein fein abgestimmtes hybrides Framework für die Sparse-Matrix-Matrix-Multiplikation auf GPUs, das durch adaptive Zeilenpartitionierung und eine RS-Tile-Darstellung Tensor-Kern-Effizienz mit der Verarbeitung unregelmäßiger Sparsity-Strukturen kombiniert und dabei im Vergleich zu aktuellen State-of-the-Art-Methoden Beschleunigungen von 1,27- bis 6,13-fach erzielt.

Aiying Li, Jingwei Sun, Han Li, Wence Ji, Guangzhong SunWed, 11 Ma💻 cs

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Diese Arbeit führt eine systematische Überprüfung und Leistungsbewertung von Federated-Learning-Methoden in Edge-Computing-Umgebungen durch, wobei verschiedene Algorithmen hinsichtlich Genauigkeit, Konvergenz und Ressourceneffizienz verglichen werden, um bestehende Herausforderungen wie Datenheterogenität zu identifizieren und eine Forschungsagenda für zukünftige robuste Systeme zu entwickeln.

Sales Aribe Jr., Gil Nicholas CagandeWed, 11 Ma🤖 cs.AI

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

Die Arbeit stellt Auralink SDC vor, ein Edge-Architekturkonzept mit spezialisierten KI-Agenten, das durch Techniken wie confidence-kalibrierte autonome Fehlerbehebung und adaptive Retrieval-Augmented Reasoning die Zuverlässigkeit und Reaktionsgeschwindigkeit von EV-Ladeinfrastruktur signifikant verbessert und dabei 78 % autonome Störungsbehebung bei sub-50ms-Latenz erreicht.

Mohammed CherifiWed, 11 Ma🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Diese Arbeit stellt einen Sensitivitäts-basierten Kompressionsrahmen für Reservoir Computing vor, der durch systematische Kombination von Pruning und Quantisierung die Hardware-Effizienz auf FPGAs erheblich steigert, ohne die Modellgenauigkeit zu beeinträchtigen.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Die Arbeit stellt Kareto vor, einen adaptiven Optimierer für die mehrstufige Speicherkonfiguration von KV-Caches in LLM-Diensten, der durch effiziente Pareto-Frontier-Suche und feinkörnige Anpassung die Kosten, den Durchsatz und die Latenz unter variierenden Arbeitslasten signifikant verbessert.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Die Arbeit stellt Zipage vor, einen hochparallelen LLM-Inferenz-Engine, der durch die Kombination von tokenweiser KV-Cache-Komprimierung mit PagedAttention sowie fortschrittlichen Scheduling-Strategien den Speicherkonflikt bei komplexen Reasoning-Aufgaben löst und dabei über 2,1-fache Geschwindigkeitssteigerungen bei nur geringen Genauigkeitseinbußen erzielt.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Extension of ACETONE C code generator for multi-core architectures

Dieses Papier stellt eine Erweiterung des ACETONE-C-Codegenerators vor, die durch die formale Definition des Prozessorzuordnungsproblems und die Entwicklung von Scheduling-Heuristiken sowie Synchronisationsmechanismen die Generierung paralleler Code für Multi-Core-Architekturen ermöglicht.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Serving Compound Inference Systems on Datacenter GPUs

Das Paper stellt JigsawServe vor, ein Serving-Framework für zusammengesetzte Inferenzsysteme auf Datacenter-GPUs, das durch die gemeinsame Optimierung von Latenz, Genauigkeit und Kosten mittels adaptiver Modellwahl und fein granularer räumlicher GPU-Partitionierung die maximale Dienstleistungsfähigkeit im Vergleich zu bisherigen Arbeiten um das 11,3-fache steigert.

Sriram Devata, Rahul Singh, Sarita AdveWed, 11 Ma💻 cs

DeZent: Decentralized z-Anonymity with Privacy-Preserving Coordination

Die Arbeit stellt deZent vor, ein dezentrales Framework für z-Anonymität in Sensor-Netzwerken, das durch eine leichte Koordination und sichere Summenbildung die Abhängigkeit von einer vertrauenswürdigen Zentralinstanz minimiert und dabei eine vergleichbare Datenschutzqualität bei geringerem Kommunikationsaufwand erreicht.

Carolin Brunn, Florian TschorschWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Die Arbeit stellt FedLECC vor, eine leichte, cluster- und verlustgesteuerte Strategie zur Auswahl von Clients im Federated Learning, die unter nicht-IID-Bedingungen die Genauigkeit verbessert und gleichzeitig die Kommunikationskosten sowie die Anzahl der erforderlichen Runden signifikant reduziert.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Die Arbeit stellt Guardian vor, ein konsensgesteuertes Multi-LLM-System mit QLoRA-Feinabstimmung, das spezialisierte Modelle und einen Konsens-Engine koordiniert, um die Informationsgewinnung und Suchplanung bei Vermisstenfällen in den kritischen ersten 72 Stunden zu unterstützen.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Die Arbeit führt die $qs$ -Ungleichung ein, um zu zeigen, dass Mixture-of-Experts-Modelle aufgrund einer doppelten Ineffizienz bei der Inferenz – nämlich fragmentierter Gewichtswiederverwendung und begrenztem HBM-Speicher für den KV-Cache – bei langen Kontexten strukturell gegenüber dichteren Modellen benachteiligt sind, was ihre Trainings-FLOP-Effizienz nicht auf die Laufzeitleistung überträgt.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

Das Paper stellt Lockbox vor, eine Zero-Trust-Architektur, die durch explizite Vertrauensprüfung, starke Isolation und policy-gesteuerte Durchsetzung die sichere Verarbeitung sensibler Cloud-Workloads unter strengen Sicherheitsanforderungen ermöglicht.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Das Paper stellt EPIC vor, ein verteiltes wissenschaftliches Lernframework, das durch hardware- und physikgesteuerte Kodierung und Dekodierung die Kommunikationskosten und Latenz bei der Full-Waveform-Inversion drastisch senkt, ohne dabei die physikalische Genauigkeit zu beeinträchtigen.

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei YangWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Diese Arbeit demonstriert erstmals die direkte Programmierung von FP64-Tensor-Cores auf NVIDIA-GPUs zur Beschleunigung hochauflösender Finite-Elemente-Simulationen in der MFEM-Bibliothek, wodurch auf Exascale-Systemen bis zu eine Verdopplung der Leistung und signifikante Energieeffizienzgewinne erzielt werden.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Weiter →

cs.DC