cs.LG Arbeiten | Gist.Science

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

Diese Studie führt die erste systematische Untersuchung des kontinuierlichen Vergessens bei Text-zu-Bild-Diffusionsmodellen durch, identifiziert kumulative Parameterdrift als Hauptursache für den Leistungsabfall und schlägt Regularisierungsmethoden vor, die das Vergessen spezifischer Konzepte ermöglichen, ohne das allgemeine Modellwissen zu beeinträchtigen.

Justin Lee, Zheda Mai, Jinsu Yoo + 3 more2026-03-04🤖 cs.LG

TransactionGPT

Das Paper stellt TransactionGPT vor, ein auf einer 3D-Transformer-Architektur basierendes Fundamentmodell für Zahlungsdaten, das durch seine effiziente Verarbeitung von Milliarden-Transaktionen und überlegene Leistung bei Anomalieerkennung sowie Transaktionsvorhersage bestehende Modelle und feinabgestimmte LLMs in Bezug auf Genauigkeit und Geschwindigkeit übertrifft.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

SURFACEBENCH: A Geometry-Aware Benchmark for Symbolic Surface Discovery

Die Arbeit stellt SURFACEBENCH vor, das erste geometriebewusste Benchmark für die symbolische Entdeckung dreidimensionaler Flächen, das bestehende LLM-Ansätze durch eine umfassende Evaluierung über verschiedene Darstellungsformen und geometrische Metriken als unzureichend für konsistente strukturelle und parametrische Genauigkeit entlarvt.

Sanchit Kabra, Shobhnik Kriplani, Parshin Shojaee + 1 more2026-03-04🤖 cs.LG

FAST: Topology-Aware Frequency-Domain Distribution Matching for Coreset Selection

Die Arbeit stellt FAST vor, ein DNN-freies Framework zur Coresetauswahl, das durch graphenbasierte Optimierung und eine modifizierte charakteristische Funktionsdistanz im Frequenzbereich eine überlegene Verteilungsmatching-Leistung bei gleichzeitig deutlich reduziertem Energieverbrauch und höherer Geschwindigkeit erreicht.

Jin Cui, Boran Zhao, Jiajun Xu + 3 more2026-03-04📊 stat

QiMeng-CRUX: Narrowing the Gap Between Natural Language and Verilog via Core Refined Understanding eXpression for Circuit Design

Die Arbeit stellt QiMeng-CRUX vor, ein Framework, das mithilfe einer strukturierten Zwischensprache (CRUX) und eines zweistufigen Trainingsverfahrens die Lücke zwischen mehrdeutigen natürlichen Sprachbeschreibungen und präziser Verilog-Codegenerierung schließt und dabei state-of-the-art Ergebnisse erzielt.

Lei Huang, Rui Zhang, Jiaming Guo + 9 more2026-03-04🤖 cs.LG

WARP: Weight Teleportation for Attack-Resilient Unlearning Protocols

Die Arbeit stellt WARP vor, eine Verteidigungsmethode für maschinelles Unlearning, die durch Ausnutzung neuronaler Netzwerksymmetrien die Privatsphäre erhöht und Angriffe auf vergessene Daten signifikant erschwert, ohne dabei die Modellgenauigkeit zu beeinträchtigen.

Mohammad M Maheri, Xavier Cadet, Peter Chin + 1 more2026-03-04🤖 cs.AI

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Die Arbeit stellt ALARM vor, ein Framework zur visuellen Anomalieerkennung in komplexen Umgebungen, das Large Multimodal Models (MLLMs) mit Unsicherheitsquantifizierung und Qualitätssicherungstechniken kombiniert, um robuste und zuverlässige Entscheidungen über verschiedene Domänen hinweg zu treffen.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Value Gradient Guidance for Flow Matching Alignment

Die Arbeit stellt VGG-Flow vor, eine Methode zur effizienten und prioritätserhaltenden Feinabstimmung von Flow-Matching-Modellen durch die Nutzung der Optimalsteuerungstheorie, um die Geschwindigkeitsfeld-Differenz mit dem Gradienten einer Wertfunktion abzugleichen.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Diese Arbeit stellt ein konfidenzbewusstes, feinabgestuftes Debatten-Framework (CFD) vor, das Open-Source-LLMs zur automatischen Anreicherung von Trainingsdaten für die mentale Gesundheit und Online-Sicherheit nutzt und dabei durch die Verwendung von Debattentranskripten signifikante Verbesserungen bei nachgelagerten Aufgaben erzielt.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

CORE: Concept-Oriented Reinforcement for Bridging the Definition-Application Gap in Mathematical Reasoning

Das Paper stellt CORE vor, ein Reinforcement-Learning-Framework, das die Lücke zwischen Definition und Anwendung im mathematischen Schlussfolgern schließt, indem es explizite Konzepte als feingranulare Supervision nutzt, um Large Language Models zu echtem konzeptionellem Verständnis statt nur zum Mustererkennen zu führen.

Zijun Gao, Zhikun Xu, Xiao Ye + 1 more2026-03-04🤖 cs.AI

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

Die Studie stellt CHAMMI-75 vor, einen offenen Datensatz heterogener, multikanaliger Mikroskopiebilder aus 75 Studien, der entwickelt wurde, um channel-adaptive KI-Modelle für die Zellmorphologie zu trainieren und deren Übertragbarkeit über verschiedene biologische Untersuchungen hinweg zu verbessern.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

A Neural Network-Based Real-time Casing Collar Recognition System for Downhole Instruments

Die vorgestellte Arbeit stellt Collar Recognition Nets (CRNs), eine Familie von leichtgewichtigen, 1-D-Convolutional-Neural-Networks vor, die es ermöglichen, Kesselmanschetten in Echtzeit unter strengen Ressourcenbeschränkungen in Downhole-Umgebungen präzise zu erkennen und damit autonome Tiefenkontrollen für Bohrlochinstrumente zu realisieren.

Si-Yu Xiao, Xin-Di Zhao, Xiang-Zhan Wang + 8 more2026-03-04⚡ eess

Multi-Scenario Highway Lane-Change Intention Prediction: A Temporal Physics-Informed Multi-Modal Framework

Die Studie stellt TPI-AI vor, einen hybriden Rahmen aus tiefen temporalen Repräsentationen und physikbasierten Interaktionsmerkmalen, der durch einen LightGBM-Klassifikator robuste Vorhersagen von Fahrspurwechselabsichten über verschiedene Autobahnszenarien hinweg ermöglicht und dabei die Herausforderungen von Klassenungleichgewicht und Rauschen in den Daten adressiert.

Jiazhao Shi, Ziyu Wang, Yichen Lin + 1 more2026-03-04🤖 cs.LG

Stochastic Control Methods for Optimization

Diese Arbeit entwickelt ein stochastisches Kontrollframework zur globalen Optimierung nicht-konvexer und nicht-differenzierbarer Funktionen in euklidischen Räumen und im Wasserstein-Raum, das durch Regularisierung, die Cole-Hopf-Transformation und Feynman-Kac-Formeln sowie Monte-Carlo-Schemata auf der Basis der Bismut-Elworthy-Li-Formel eine konvergente und ableitungsfreie Lösung ermöglicht.

Jinniao Qiu2026-03-04🤖 cs.LG

Quantized SO(3)-Equivariant Graph Neural Networks for Efficient Molecular Property Prediction

Diese Arbeit stellt eine Quantisierungsmethode für SO(3)-äquivariante Graph-Neural-Networks vor, die durch innovative Techniken wie die Entkopplung von Betrag und Richtung sowie eine verzweigte Trainingsstrategie eine effiziente, präzise und physikalisch symmetrieerhaltende Vorhersage molekularer Eigenschaften auf Edge-Geräten ermöglicht.

Haoyu Zhou, Ping Xue, Hao Zhang + 1 more2026-03-04🤖 cs.LG

Discrete Solution Operator Learning for Geometry-Dependent PDEs

Die Arbeit stellt DiSOL vor, einen neuen Ansatz zum Lernen diskreter Lösungsverfahren anstelle kontinuierlicher Operatoren, der durch die Nachahmung klassischer Diskretisierungsschritte stabile und genaue PDE-Lösungen auch bei stark variierenden Geometrien und topologischen Änderungen ermöglicht.

Jinshuai Bai, Haolin Li, Zahra Sharif Khodaei + 3 more2026-03-04🤖 cs.LG

Graph Recognition via Subgraph Prediction

Das Paper stellt GraSP vor, eine einheitliche und übertragbare Methode zur Erkennung von Graphen in Bildern durch die Vorhersage von Teilgraphen, die das Problem der mangelnden Kanonizität und Übertragbarkeit bestehender Lösungen adressiert.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

Data-Driven Conditional Flexibility Index

Dieser Beitrag stellt den bedingten Flexibilitätsindex (CFI) vor, der mithilfe normalisierender Flows historische Daten und Kontextinformationen nutzt, um robuste, datengetriebene Unsicherheitsmengen für die Prozessplanung zu definieren und so die Qualität von Scheduling-Entscheidungen zu verbessern.

Moritz Wedemeyer, Eike Cramer, Alexander Mitsos + 1 more2026-03-04🤖 cs.LG

Distributional value gradients for stochastic environments

Diese Arbeit stellt „Distributional Sobolev Training" vor, eine Methode, die durch die Modellierung der Verteilung von Wertfunktionen und deren Gradienten mittels eines bedingten VAE und des Max-Sliced Maximum Mean Discrepancy-Abstands die Effizienz von Gradientenregularisierung in stochastischen Umgebungen verbessert und dabei die Kontraktionseigenschaften des erweiterten Bellman-Operators theoretisch untermauert.

Baptiste Debes, Tinne Tuytelaars2026-03-04🤖 cs.LG

Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

Dieser technische Bericht stellt die Quantisierungsbewusste Destillation (QAD) als eine robuste und stabile Methode vor, um die Genauigkeit von in NVFP4 quantisierten großen Sprach- und Vision-Sprachmodellen wiederherzustellen, indem ein vollpräzises Lehrermodell in ein quantisiertes Schülermodell destilliert wird, was insbesondere bei komplexen Nachtrainingspipelines Vorteile gegenüber herkömmlichen Ansätzen bietet.

Meng Xin, Sweta Priyadarshi, Jingyu Xin + 26 more2026-03-04🤖 cs.LG

← Zurück Weiter →