cs.DC Arbeiten | Gist.Science

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Die Arbeit stellt Nezha vor, ein verteiltes Key-Value-Speichersystem, das durch eine innovative Trennung von Schlüsseln und Werten sowie eine optimierte Raft-Integration die durch überlappende Persistenzvorgänge verursachten I/O-Overheads reduziert und dabei die Durchsatzleistung für Schreib-, Lese- und Scan-Operationen signifikant steigert, ohne die Sicherheitsgarantien von Raft zu beeinträchtigen.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

Hierarchical Observe-Orient-Decide-Act Enabled UAV Swarms in Uncertain Environments: Frameworks, Potentials, and Challenges

Diese Arbeit stellt ein hierarchisches Observe-Orient-Decide-Act (H-OODA)-Framework vor, das durch die Integration von Cloud-Edge-Terminal-Schichten und Network Function Virtualization (NFV) die Entscheidungsfindung und Steuerung von UAV-Schwärmen in unsicheren Umgebungen verbessert, während gleichzeitig potenzielle Herausforderungen und zukünftige Forschungsrichtungen analysiert werden.

Ziye Jia, Yao Wu, Qihui Wu, Lijun He, Qiuming Zhu, Fuhui Zhou, Zhu HanWed, 11 Ma💻 cs

PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies

Die Arbeit stellt PIM-SHERPA vor, eine rein softwarebasierte Methode, die durch die Einführung von DRAM-Doppelbuffering und online Gewichtsumordnung die Speicherattribut- und Layout-Inkonsistenzen bei der Inferenz von Large Language Models auf PIM-fähigen Endgeräten löst und dabei erhebliche Speichereinsparungen bei vergleichbarer Leistung ermöglicht.

Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

Die Arbeit stellt Flash-KMeans vor, eine GPU-basierte Implementierung des K-Means-Algorithmus, die durch innovative Kernel-Techniken wie FlashAssign und sort-inverse update IO-Engpässe und atomare Konflikte eliminiert und damit im Vergleich zu etablierten Bibliotheken wie cuML und FAISS Geschwindigkeitssteigerungen von bis zu 17,9-fach bis über 200-fach erzielt.

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Diese Arbeit demonstriert, dass sich Mamba-2 durch compilerbasierte XLA-Optimierungen ohne handgeschriebene CUDA-Kernels effizient auf CPU, NVIDIA-GPUs und TPUs portieren lässt, wodurch eine theoretische $O(1)$ -Zustandsverwaltung und hardwareunabhängige Inferenz mit hoher Leistung erreicht werden.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Case Study: Performance Analysis of a Virtualized XRootD Frontend in Large-Scale WAN Transfers

Diese Studie analysiert die Leistung einer virtualisierten XRootD-Frontend-Architektur am T2_BR_SPRACE unter Hochlastbedingungen und dokumentiert, dass das System mit heterogenen VMs und modernen TCP-Optimierungen aggregierte Durchsätze von bis zu 51,3 Gb/s sowie Spitzenwerte von 41,5 Gb/s zu Fermilab erreicht.

J M da Silva, M A Costa, R L IopeWed, 11 Ma💻 cs

Randomized Distributed Function Computation (RDFC): Ultra-Efficient Semantic Communication Applications to Privacy

Die Arbeit stellt das RDFC-Framework vor, das als Form semantischer Kommunikation durch die Übertragung minimaler Informationen zur Erzeugung privater Zufallsfunktionen dient und nachweist, dass selbst ohne gemeinsame Zufallsdaten eine starke lokale Differentialprivatsphäre erreicht werden kann, wobei gemeinsame Zufallsdaten die Kommunikationsrate im Vergleich zu herkömmlichen Methoden drastisch senken.

Onur GünlüWed, 11 Ma⚡ eess

Multi-DNN Inference of Sparse Models on Edge SoCs

Die Arbeit stellt SparseLoom vor, ein Demonstratorsystem für Edge-SoCs, das durch eine neuartige „Model Stitching"-Methode zur rekombinierenden Erstellung von Modellvarianten ohne Nachtraining die SLO-Verletzungsraten um bis zu 74 % senkt, den Durchsatz um das 2,31-Fache steigert und den Speicherbedarf im Vergleich zu bestehenden Multi-DNN-Inferenzsystemen um durchschnittlich 28 % reduziert.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Dieses Paper stellt einen neuen, auf Datenfrische basierenden Scheduling-Rahmen für Multi-Rate-Aufgabenketten vor, der durch die Einführung von Just-in-Time-Versatzzeiten und einen Konsens-Versatz-Suchalgorithmus die End-to-End-Datenfrische in sicherheitskritischen Systemen gewährleistet, ohne dabei die Nachteilige Latenz des Logical-Execution-Time-Paradigmas oder die Ineffizienz von Überabtastung in Kauf zu nehmen.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

Rate-Distortion Bounds for Heterogeneous Random Fields on Finite Lattices

Diese Arbeit stellt einen Finite-Blocklängen-Rate-Distortion-Rahmen für heterogene Zufallsfelder auf endlichen Gittern vor, der die durch kachelbasierte Architekturen in wissenschaftlichen Kompressionsverfahren auferlegten Beschränkungen explizit berücksichtigt und nicht-asymptotische Schranken sowie eine zweite-Ordnung-Entwicklung zur Quantifizierung des Einflusses von räumlicher Korrelation, Heterogenität und Kachelgröße herleitet.

Sujata Sinha, Vishwas Rao, Robert Underwood, David Lenz, Sheng Di, Franck Cappello, Lingjia LiuWed, 11 Ma🔢 math

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Die Arbeit stellt ein Capability Coherence System (CCS) vor, das durch die Übertragung von Speicher-Konsistenzmodellen auf die Autorisierungsverwaltung die Anzahl nicht autorisierter API-Aufrufe bei schnellen Agenten-Revokationen im Vergleich zu herkömmlichen zeitbasierten Strategien drastisch reduziert.

Vladyslav ParakhinWed, 11 Ma💻 cs

General Coded Computing in a Probabilistic Straggler Regime

Diese Arbeit analysiert theoretisch und experimentell die Konvergenz des Approximationsfehlers bei allgemeinen kodierten Berechnungsverfahren (BACC und LeTCC) unter probabilistischen Straggler-Bedingungen und zeigt, dass die Fehler trotz einer mit der Serveranzahl skalierenden erwarteten Anzahl von Stragglern gegen Null konvergieren.

Parsa Moradi, Mohammad Ali Maddah-AliTue, 10 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Das Paper stellt EROICA vor, ein Online-Troubleshooting-System, das durch feinkörnige Profilierung und differenzielle Beobachtbarkeit Leistungsprobleme in großen GPU-Clustern für das Training großer Modelle effizient diagnostiziert und sich bereits erfolgreich in einer Produktionsumgebung mit rund 100.000 GPUs bewährt hat.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Die Arbeit stellt Co-LoRA vor, eine Methode zur personalisierten Federated Learning, die durch eine aufgabenrelevante Aggregationsstrategie und ein dimensionsinvariantes Modul sowohl Daten- als auch Modellheterogenität in realistischen, multimodalen Szenarien effektiv adressiert und dabei den aktuellen Stand der Technik übertrifft.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne TuytelaarsTue, 10 Ma🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Die Arbeit stellt NANOMIND vor, ein Hardware-Software-Co-Design-Framework, das durch modulare Zerlegung und dynamisches Offloading von Large Multimodal Models auf heterogene Beschleuniger in SoCs die Energieeffizienz und den Durchsatz auf batteriebetriebenen Kleingeräten signifikant verbessert und es ermöglicht, komplexe Modelle wie LLaVA-OneVision über 20 Stunden ohne Netzverbindung lokal auszuführen.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

The Need for Quantitative Resilience Models and Metrics in Classical-Quantum Computing Systems

Der Artikel argumentiert, dass Resilienz bei der Integration von HPC und Quantenprozessoren als vorrangiges Designkriterium etabliert werden muss, und fordert die Entwicklung quantitativer Modelle und Metriken, die Methoden aus dem Bauingenieurwesen nutzen, um die Zuverlässigkeit hybrider Systeme zu bewerten und den Wert von Verbesserungen in der Quantentechnologie-Stack zu quantifizieren.

Santiago Núñez-CorralesTue, 10 Ma⚛️ quant-ph

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Die Arbeit stellt NEST vor, ein Framework für das Gerätelayout im verteilten Deep Learning, das durch strukturierte dynamische Programmierung Parallelismus, Speicherkapazität und Netzwerktopologie gemeinsam optimiert und damit im Vergleich zu bestehenden Methoden eine bis zu 2,43-fach höhere Durchsatzleistung sowie verbesserte Skalierbarkeit und Speichereffizienz erzielt.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya MahajanTue, 10 Ma🤖 cs.LG

Configurable Runtime Orchestration for Dynamic Data Retrieval in Distributed Systems

Dieses Paper stellt ein konfigurationsgesteuertes Framework für die dynamische Orchestrierung von Datenabrufen in verteilten Systemen vor, das durch die generierung von Ausführungsgraphen zur Laufzeit eine flexible und skalierbare Integration ermöglicht, ohne bei sich ändernden Anforderungen einen Code-Neubereitstellung zu erfordern.

Abhiram KandirajuTue, 10 Ma💻 cs

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Das Paper stellt AIReSim vor, einen diskreten Ereignissimulator zur Bewertung und Optimierung von Zuverlässigkeitsstrategien, Parametern und Kapazitätsplanungen in großen KI-Clustern, um die Auswirkungen von Ausfällen und die Effizienz von Wiederherstellungsprozessen zu analysieren.

Karthik Pattabiraman, Mihir Patel, Fred LinTue, 10 Ma💻 cs

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

Die vorgestellte Uber-Failover-Architektur (UFA) optimiert die Hyperscale-Microservice-Infrastruktur, indem sie ein einheitliches 2x-Kapazitätsmodell durch eine differenzierte Strategie ersetzt, die nicht-kritische Dienste bei Bedarf vorübergehend unterbricht, um die Auslastung von 20 % auf 30 % zu steigern, über eine Million CPU-Kerne einzusparen und gleichzeitig eine Verfügbarkeit von 99,97 % zu gewährleisten.

Mayank Bansal, Milind Chabbi, Kenneth Bogh, Srikanth Prodduturi, Kevin Xu, Amit Kumar, David Bell, Ranjib Dey, Yufei Ren, Sachin Sharma, Juan Marcano, Shriniket Kale, Subhav Pradhan, Ivan Beschastnikh, Miguel Covarrubias, Chien-Chih Liao, Sandeep Koushik Sheshadri, Wen Luo, Kai Song, Ashish Samant, Sahil Rihan, Nimish Sheth, Uday Kiran MedisettyTue, 10 Ma💻 cs

← Zurück Weiter →

cs.DC