cs.LG Arbeiten | Gist.Science

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

Das Paper stellt LLEMA vor, ein Framework, das Large Language Models mit chemischen Evolutionsregeln und Gedächtnis-basiertem Feedback kombiniert, um in einem multi-objektiven Suchprozess effizient und synthetisierbare neue Materialien für verschiedene Anwendungsbereiche zu entdecken.

Nikhil Abhyankar, Sanchit Kabra, Saaketh Desai + 1 more2026-03-06🔬 cond-mat.mtrl-sci

Auto-Adaptive PINNs with Applications to Phase Transitions

Die Autoren stellen eine adaptive Sampling-Methode für Physics Informed Neural Networks (PINNs) vor, die es ermöglicht, problem-spezifische Heuristiken zur gezielten Erfassung von Phasenübergängen in Allen-Cahn-Gleichungen zu nutzen und dabei die Leistungsfähigkeit gegenüber residual-adaptiven Ansätzen nachweist.

Kevin Buck, Woojeong Kim2026-03-06🔢 math

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

Die Arbeit stellt FMint-SDE vor, ein multimodales Basis-Modell auf Transformer-Basis, das durch In-Context-Learning und eine universelle Fehlerkorrektur auf Basis grober numerischer Lösungen eine überlegene Genauigkeit und Effizienz bei der Simulation stochastischer Differentialgleichungen in verschiedenen wissenschaftlichen Domänen ermöglicht.

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Das Paper stellt MotionStream vor, ein Echtzeit-Video-Generierungsmodell, das durch die Destillation eines bidirektionalen Lehrmodells in einen kausalen Schüler und den Einsatz von gleitenden Fenster-Aufmerksamkeitsmechanismen interaktive, qualitativ hochwertige Videostreams mit subsekundärer Latenz und unbegrenzter Länge auf einer einzigen GPU ermöglicht.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

CytoNet ist ein auf 1 Million ungelabelter mikroskopischer Bildpatches trainiertes Fundamentmodell, das die zelluläre Architektur des menschlichen Großhirns in hoher Auflösung analysiert und so eine skalierbare Untersuchung der kortikalen Mikroarchitektur sowie deren Verknüpfung mit der makroskopischen Struktur-Funktions-Organisation ermöglicht.

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Die Arbeit stellt CoRPO vor, eine einfache Modifikation von GRPO, die durch das Setzen einer festen Korrektheits-Schwelle als untere Grenze für die Baseline eine Überbewertung falscher Lösungen verhindert und so die Generalisierungsfähigkeit von Modellen auf domänenübergreifende Aufgaben signifikant verbessert.

Anisha Garg, Claire Zhang, Nishit Neema + 3 more2026-03-06💻 cs

SPOT: Single-Shot Positioning via Trainable Near-Field Rainbow Beamforming

Diese Arbeit stellt ein end-zu-end Deep-Learning-Verfahren namens SPOT vor, das mittels trainierbarer Phasen- und Zeitverzögerungskoeffizienten in Phasen-Zeit-Arrays optimierte Regenbogenstrahlen erzeugt, um die Position eines Nutzers bereits nach einer einzigen Downlink-Übertragung mit deutlich geringerem Overhead und höherer Genauigkeit zu bestimmen.

Yeyue Cai, Jianhua Mo, Meixia Tao2026-03-06💻 cs

ReCast: Reliability-aware Codebook Assisted Lightweight Time Series Forecasting

ReCast ist ein zuverlässigkeitsbewusstes, codebuchgestütztes Framework für die Zeitreihenvorhersage, das durch Patch-Quantisierung und eine duale Architektur mit robusten Aktualisierungsstrategien effiziente und genaue Vorhersagen für komplexe, nicht-stationäre Daten ermöglicht.

Xiang Ma, Taihua Chen, Pengcheng Wang + 2 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Das Paper stellt ObAct vor, ein Framework für aktives visuelles Imitationslernen, bei dem ein Roboterarm als Beobachter eine 3D-Gaussian-Splatting-Repräsentation erstellt und eine optimale Kameraposition einnimmt, um die Sichtbarkeit für den ausführenden Arm zu maximieren und so die Robustheit der Politik gegenüber Verdeckungen signifikant zu verbessern.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery

Die Studie stellt CycleChemist vor, ein duales maschinelles Lernframework, das auf dem größten OPV-Datensatz (OPV2D) basiert und durch die Kombination von Vorhersagemodellen für die Leistungsfähigkeit mit einem generativen Transformer-Ansatz die datengetriebene Entdeckung hochleistungsfähiger organischer Photovoltaikmaterialien ermöglicht.

Hou Hei Lam, Jiangjie Qiu, Xiuyuan Hu + 5 more2026-03-06🔬 cond-mat.mtrl-sci

A physics-informed U-Net-LSTM network for nonlinear structural response under seismic excitation

Die vorgestellte Arbeit entwickelt ein physik-informiertes U-Net-LSTM-Netzwerk, das durch die Integration physikalischer Gesetze in ein Deep-Learning-Framework die Genauigkeit und Effizienz bei der Vorhersage nichtlinearer seismischer Strukturantworten im Vergleich zu rein datengetriebenen Methoden verbessert.

Sutirtha Biswas, Kshitij Kumar Yadav2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Die Arbeit stellt DPAC vor, eine Methode zur adversarialen Steuerung von Diffusionsmodellen, die durch Projektion der Gradienten auf den Tangentialraum der generativen Score-Geometrie die Verteilungserhaltung optimiert und so bei gleicher Angriffserfolgsrate eine signifikant höhere Bildqualität und geringere Verteilungsdrift erreicht.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

An AI Implementation Science Study to Improve Trustworthy Data in a Large Healthcare System

Diese Studie präsentiert eine Implementierungsanalyse bei Shriners Childrens, die durch die Modernisierung des Datenwarehouses auf OMOP CDM v5.4, die Entwicklung eines Python-basierten Datenqualitäts-Tools nach dem METRIC-Rahmenwerk und den Vergleich von KI-Implementierungsstrategien für Kraniofaziale Mikrosomie dazu beiträgt, vertrauenswürdige KI in der Gesundheitsversorgung zu fördern.

Benoit L. Marteau, Andrew Hornback, Shaun Q. Tan + 3 more2026-03-06💻 cs

GRAND: Guidance, Rebalancing, and Assignment for Networked Dispatch in Multi-Agent Path Finding

Der Artikel stellt GRAND vor, einen hybriden, hierarchischen Algorithmus, der lernbasierte globale Guidance mit effizienter Optimierung kombiniert, um die Durchsatzleistung von Multi-Agenten-Systemen in Lagerhäusern um bis zu 10 % zu steigern und dabei Echtzeit-Anforderungen zu erfüllen.

Johannes Gaber, Meshal Alharbi, Daniele Gammelli + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Die vorgestellte Arbeit führt einen Fairness-bewussten Fine-Tuning-Ansatz für medizinische Vision-Language-Modelle zur Glaukomdiagnose ein, der durch eine differentiable MaxAccGap-Verlustfunktion und effiziente Low-Rank Adaptation (LoRA) die diagnostischen Genauigkeitsunterschiede zwischen demografischen Gruppen um 69 % reduziert, ohne dabei die Gesamtgenauigkeit signifikant zu beeinträchtigen.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Die Arbeit stellt die „Guided Flow Policy" (GFP) vor, eine Offline-Reinforcement-Learning-Methode, die durch die Kopplung eines mehrstufigen Flow-Matching-Policies mit einem destillierten Ein-Schritt-Aktor und einer gewichteten Behavior-Cloning-Strategie erfolgreich hochwertige Aktionen aus dem Datensatz lernt und dabei in 144 verschiedenen Aufgaben State-of-the-Art-Ergebnisse erzielt.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Die Studie zeigt, dass das Mischen einer skalaren Belohnung für die Einhaltung einer kanonischen Lösungsreihenfolge mit der eigentlichen Aufgabenbelohnung beim Reinforcement-Learning-Post-Training von Transformern auf Zebra-Rätseln die Leistung verbessert, indem es das Modell zu kanonischen Lösungspfaden lenkt, ohne die Architektur oder die überwachungsdaten zu ändern.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Die Arbeit stellt NeuralRemaster vor, eine modellunabhängige Methode namens Phase-Preserving Diffusion (φ-PD), die bei der Generierung von Bildern und Videos die Phasenkomponente des Eingabesignals bewahrt, um strukturerhaltende und geometrisch konsistente Ergebnisse für Aufgaben wie Re-Rendering und Sim-to-Real-Transfer zu ermöglichen.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Sparse Attention Post-Training for Mechanistic Interpretability

Die Arbeit stellt eine einfache Nachtrainierungsmethode vor, die Transformer-Aufmerksamkeit durch eine flexible Sparsamkeitsregularisierung auf etwa 0,4 % der Kanten reduziert, ohne die Leistung zu beeinträchtigen, und dadurch deutlich vereinfachte, interpretierbare Schaltkreise sowie eine vereinheitlichte Sicht auf Merkmals- und Schaltungsperspektiven ermöglicht.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

← Zurück Weiter →