cs.LG Arbeiten | Gist.Science

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Das Paper stellt SWE-MiniSandbox vor, eine leichte, containerfreie Methode zur skalierbaren Reinforcement-Learning-Training von Software-Engineering-Agenten, die durch Kernel-isolierte Workspaces und Pre-Caching-Techniken den Speicherbedarf und die Vorbereitungszeit im Vergleich zu herkömmlichen Container-Ansätzen drastisch reduziert, ohne die Leistung zu beeinträchtigen.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Die Studie stellt MiDAS vor, ein quelloffenes, plattformunabhängiges System zur nicht-invasiven, zeitlich synchronisierten Erfassung multimodaler Daten für roboterassistierte minimalinvasive Chirurgie, das proprietäre Schnittstellen umgeht und durch die Bereitstellung annotierter Datensätze, einschließlich der ersten multimodalen Aufnahmen von Herniennaht-Übungen, die Reproduzierbarkeit der Forschung fördert.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Die Studie stellt AHSIV vor, einen adaptiven Rahmen zur Auswahl von Prognosemodellen, der durch die Berücksichtigung von Horizont-induzierter Degradation und Nachfrageschwankungen die Instabilität bei der Modellbewertung über verschiedene Zeithorizonte hinweg adressiert und so robuste Entscheidungen für heterogene Nachfragemuster ermöglicht.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Die Arbeit stellt GaiaFlow vor, ein innovatives Framework, das semantisch geführtes Diffusions-Tuning mit adaptiven Early-Exit-Protokollen und quantisierter Inferenz kombiniert, um bei der Informationsretrieval eine nachhaltige Balance zwischen hoher Suchqualität und minimalem CO₂-Fußabdruck zu erreichen.

Rong Fu, Jia Yee Tan, Chunlei Meng, Shuo Yin, Xiaowen Ma, Wangyu Wu, Muge Qi, Guangzhen Yao, Zhaolu Kang, Zeli Su, Simon Fong2026-03-09🤖 cs.LG

MolCrystalFlow: Molecular Crystal Structure Prediction via Flow Matching

Das Paper stellt MolCrystalFlow vor, ein generatives Flow-Matching-Modell, das die Vorhersage molekularer Kristallstrukturen ermöglicht, indem es intramolekulare Komplexität von intermolekularer Packung trennt und geometrische Symmetrien durch die Darstellung von Zentroiden und Orientierungen auf Riemannschen Mannigfaltigkeiten berücksichtigt.

Cheng Zeng, Harry W. Sullivan, Thomas Egg, Maya M. Martirossyan, Philipp Höllmer, Jirui Jin, Richard G. Hennig, Adrian Roitberg, Stefano Martiniani, Ellad B. Tadmor, Mingjie Liu2026-03-09🔬 cond-mat.mtrl-sci

The Limits of Long-Context Reasoning in Automated Bug Fixing

Die Studie zeigt, dass aktuelle große Sprachmodelle beim automatischen Beheben von Softwarefehlern nicht effektiv über lange Kontexte hinweg reasoning können, da ihre Erfolge in Agenten-Workflows eher auf der Zerlegung von Aufgaben in kurze Kontextschritte beruhen als auf einer echten Verarbeitung umfangreicher Codebasen.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish Thakker2026-03-09🤖 cs.LG

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Das Paper stellt FLoRG vor, ein Framework für das federierte Fine-Tuning von Sprachmodellen, das durch die Aggregation einer einzelnen Gram-Matrix und die Anwendung von Procrustes-Alignment Aggregationsfehler sowie Dekompositionsdrift vermeidet, die Kommunikationseffizienz drastisch steigert und eine höhere Genauigkeit als bestehende Methoden erzielt.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

Conditionally Site-Independent Neural Evolution of Antibody Sequences

Die Arbeit stellt CoSiNE vor, ein auf tiefen neuronalen Netzen basierendes kontinuierliches Markov-Ketten-Modell, das die evolutionäre Dynamik der Antikörperentwicklung durch die Entkopplung von Selektion und somatischer Hypermutation erfasst und damit sowohl die Vorhersagegenauigkeit von Varianten als auch die gezielte Optimierung der Bindungsaffinität verbessert.

Stephen Zhewen Lu, Aakarsh Vermani, Kohei Sanno, Jiarui Lu, Frederick A Matsen, Milind Jagota, Yun S. Song2026-03-09🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Die Studie zeigt durch eine autonome Screening-Loop von 141 Hypothesen, dass biologische Foundation-Modelle wie scGPT und Geneformer eine genuine, über Modelle hinweg geteilte topologische und geometrische Struktur in ihren Repräsentationen lernen, die jedoch unter strengen Nullkontrollen vorwiegend auf Immungewebe beschränkt ist.

Ihor Kendiukhov2026-03-09🤖 cs.LG

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Die Arbeit stellt EMPO $^2$ vor, ein hybrides Reinforcement-Learning-Framework, das durch die Kombination von On- und Off-Policy-Optimierung sowie einem Gedächtnismechanismus die Explorationsfähigkeit von LLM-Agenten signifikant verbessert und so zu überlegener Leistung und Anpassungsfähigkeit in neuen Umgebungen führt.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Diese Arbeit erklärt das Phänomen des Modality Collapse in multimodalen LLMs als Informationsverlust durch fehlende Übereinstimmung zwischen Quell- und Textdaten, wobei die zugängliche Information durch die Generalisierte Gegenseitige Information begrenzt ist und primär vom Trainingsziel des Decoders abhängt, nicht von der Encoder-Architektur.

Jayadev Billa2026-03-09🤖 cs.AI

Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline

Die vorgestellte Arbeit entwickelt einen iterativen Web-Wissen-Web-Pipeline-Ansatz, der durch die Kombination von domänenspezifischem Web-Crawling, Few-Shot-LLM-basierter Wissensgraph-Extraktion und einer auf ökologischen Schätzern basierenden Abdeckungsanalyse die Entdeckung von KMU-Lieferanten in Nischenmärkten wie der Halbleiterindustrie effizienter und präziser gestaltet als bestehende Methoden.

Yijiashun Qi, Yijiazhen Qi, Tanmay Wagh2026-03-09🤖 cs.LG

Weight Updates as Activation Shifts: A Principled Framework for Steering

Diese Arbeit stellt ein prinzipielles Framework vor, das Aktivierungs-Steering mit Gewichts-Updates durch eine Äquivalenz erster Ordnung verbindet, wodurch eine neue Methode namens „Joint Adaptation" ermöglicht wird, die mit nur 0,04 % der Parameter eine Genauigkeit nahe der Voll-Feinabstimmung erreicht und dabei bestehende Methoden wie ReFT und LoRA übertrifft.

Dyah Adila, John Cooper, Alexander Yun, Avi Trost, Frederic Sala2026-03-09🤖 cs.LG

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Dieses Papier stellt eine reparametrisierte Tensor-Ring-Funktionalzerlegung vor, die mittels impliziter neuronaler Darstellungen und einer frequenzbasierten Analyse sowohl diskrete als auch kontinuierliche multidimensionale Daten effizient rekonstruiert und dabei in Aufgaben wie Bildinpainting und Punktwolkenwiederherstellung überlegene Ergebnisse erzielt.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Die Arbeit stellt ein kompaktes akustisches Framework vor, das MFCC-, STFT- und Pitch-Features mit einem multi-branch CNN und einer Legendre Memory Unit (LMU) kombiniert, um durch kalibrierte Posterior-Ensemble-Fusion die domänenübergreifende Klassifizierung von Säuglingsweinen zu verbessern.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin Bouchard2026-03-09🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Die Arbeit stellt Whisper-RIR-Mega vor, einen neuen Benchmark-Datensatz aus gepaarten sauberen und halligen Sprachaufnahmen, der die Robustheit verschiedener Whisper-ASR-Modelle gegenüber Raumakustik-Effekten systematisch bewertet und dabei zeigt, dass Hall die Erkennungsleistung konsistent verschlechtert.

Mandip Goswami2026-03-09🤖 cs.AI

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles

Die Arbeit stellt RigidSSL vor, ein geometrisches Vorpretraining-Framework, das durch rigideitätsbewusstes selbstüberwachtes Lernen auf großen Strukturdaten und Molekulardynamik-Simulationen die Designfähigkeit, Vielfalt und physikalische Realitätsnähe von generativen Protein-Design-Modellen erheblich verbessert.

Zhanghan Ni, Yanjing Li, Zeju Qiu, Bernhard Schölkopf, Hongyu Guo, Weiyang Liu, Shengchao Liu2026-03-09🤖 cs.AI

mlx-vis: GPU-Accelerated Dimensionality Reduction and Visualization on Apple Silicon

Die Python-Bibliothek mlx-vis nutzt das MLX-Framework von Apple Silicon, um sechs Dimensionalitätsreduktionsmethoden sowie einen GPU-beschleunigten Renderer für Visualisierungen und Animationen effizient auf Metal-GPUs auszuführen.

Han Xiao2026-03-09🤖 cs.LG

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Die Arbeit stellt „Traversal-as-Policy" vor, eine Methode, bei der aus erfolgreichen OpenHands-Executions-Logs ein ausführbarer, gate-gesteuerter Verhaltensbaum abgeleitet wird, der als externe, überprüfbare Richtlinie dient und damit die Erfolgsrate von LLM-Agenten signifikant steigert, während Sicherheitsverletzungen nahezu eliminiert und die Kosten gesenkt werden.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong Tu2026-03-09🤖 cs.AI

Information-Theoretic Privacy Control for Sequential Multi-Agent LLM Systems

Diese Arbeit untersucht die kumulative Privatsphärenverletzung in sequenziellen Multi-Agenten-LLM-Systemen, leitet theoretische Grenzen für die Informationsleckage ab und schlägt ein regularisiertes Trainingsframework vor, das Privatsphäre als systemweite Eigenschaft sicherstellt, anstatt sich nur auf lokale Einschränkungen zu verlassen.

Sadia Asif, Mohammad Mohammadi Amiri2026-03-09🤖 cs.LG

← Zurück Weiter →