cs.LG Arbeiten | Gist.Science

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Die Arbeit stellt PRPO und MCDR-Bench vor, ein Framework, das durch parallele relative Policy-Optimierung und eine objektive Fehler-basierte Evaluierung die tiefgehenden Analysefähigkeiten von Large Vision-Language Models für Diagramme systematisch verbessert.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

One step further with Monte-Carlo sampler to guide diffusion better

Die Arbeit stellt eine plug-and-play-Strategie namens ABMS vor, die durch einen zusätzlichen rückwärts gerichteten Denoising-Schritt und Monte-Carlo-Sampling die Schätzfehler bei posterior-basierten SDE-Generierungsmodellen reduziert und so die Qualität der bedingten Generierung über verschiedene Anwendungsbereiche hinweg konsistent verbessert.

Minsi Ren, Wenhao Deng, Ruiqi Feng, Tailin Wu2026-03-10🤖 cs.LG

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Diese Arbeit stellt ein neuartiges, unüberwachtes Lernverfahren vor, das durch den Einsatz von Faltungsfiltern und neuronalen Netzen mit optimierter Frühstopp-Strategie auch bei stark verrauschten Daten eine hochauflösende Rekonstruktion von Strahlhalo-Strukturen in Teilchenbeschleunigern ermöglicht, ohne dass Trainingsdatensätze erforderlich sind.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Die Arbeit stellt „Soft Equivariance Regularization" (SER) vor, einen effizienten Regularisierer, der durch die Entkopplung von Invarianz und Äquivarianz auf verschiedenen Netzwerkschichten die Repräsentationsqualität für Selbstüberwachtes Lernen verbessert, ohne dabei zusätzliche Vorhersageköpfe zu benötigen oder die Trainingskosten signifikant zu erhöhen.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

On the Generalization Capacities of MLLMs for Spatial Intelligence

Die Arbeit zeigt, dass herkömmliche multimodale Sprachmodelle für räumliche Intelligenz ohne Berücksichtigung von Kameraparametern nicht verallgemeinerbar sind, und stellt ein neues, kamera-bewusstes Framework vor, das durch die Integration von Kameraintrinsiken, datenaugmentierte Trainingsstrategien und das Destillieren geometrischer Priors eine robuste Generalisierung über verschiedene Kameras hinweg ermöglicht.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Diese Studie zeigt, dass die Anwendung von konformalisierter Quantilregression auf tiefen Lernmodellen zur Vorhersage von Sonneneruptionen zuverlässigere Konfidenzintervalle liefert als herkömmliche Methoden und so die Verlässlichkeit der Weltraumwettervorhersage verbessert.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Die Arbeit stellt ATLAS vor, ein effizientes Reinforcement-Finetuning-Framework, das kleine Sprachmodelle durch lernbare Kontextsteuerung und rubrikbasierte Belohnungsfunktionen befähigt, in großen Tool-Umgebungen robust zu agieren und dabei die Leistung von Frontier-Modellen bei deutlich geringeren Ressourcen zu erreichen.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories

Diese Studie stellt einen skalierbaren Ansatz vor, der durch die Kombination eines wissensbasierten Generierungsmodells und einer automatisierten Auditierung mittels Large Language Models synthetische Patientendaten erzeugt, die sowohl statistisch treu als auch klinisch konsistent sind und dabei den Datenschutz gewährleisten.

Guanglin Zhou, Armin Catic, Motahare Shabestari, Matthew Young, Chaiquan Li, Katrina Poppe, Sebastiano Barbieri2026-03-10🤖 cs.LG

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

Die Arbeit stellt ProtAlign vor, ein kontrastives Lernframework, das Proteinsequenzen und -strukturen in einen gemeinsamen Einbettungsraum überführt, um deren wechselseitige Beziehung zu nutzen und Aufgaben wie die Kreuzmodalsuche sowie die Funktionsvorhersage zu verbessern.

Aditya Ranganath, Hasin Us Sami, Kowshik Thopalli, Bhavya Kailkhura, Wesam Sakla2026-03-10🤖 cs.LG

Bi Directional Feedback Fusion for Activity Aware Forecasting of Indoor CO2 and PM2.5

Diese Arbeit stellt ein bidirektionales Feedback-Fusionsframework vor, das Umweltdaten und menschliche Aktivitäten kombiniert, um die Vorhersagegenauigkeit von indoor CO₂- und PM2,5-Konzentrationen durch adaptive Kontextmodulation und mehrskalige Zeitmodule signifikant zu verbessern.

Harshala Gammulle, Lidia Morawska, Sridha Sridharan, Clinton Fookes2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

Die Arbeit stellt FutureBoosting vor, einen hybriden KI-Ansatz, der die Vorhersagekraft von Regressionsmodellen für Strompreise durch die Integration von aus einem eingefrorenen Zeitreihen-Foundation-Modell generierten Merkmalen signifikant verbessert und dabei sowohl historische Muster als auch Feature-Interaktionen effektiv nutzt.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

Der Safe Transformer ist ein modularer Ansatz, der durch die Einführung eines expliziten, interpretierbaren und steuerbaren Sicherheitsbits zwischen den Transformer-Schichten eine transparente und kontrollierbare Ausrichtung von Sprachmodellen ermöglicht, ohne dass ein vollständiges Neutrainieren erforderlich ist.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Die Arbeit stellt Orion vor, ein Open-Source-System, das erstmals eine direkte Programmierung und effizientes Training von Large Language Models auf der Apple Neural Engine ermöglicht, indem es CoreML umgeht, eine detaillierte Charakterisierung der Hardware-Einschränkungen liefert und durch innovative Kompilierungs- und Patching-Techniken eine signifikante Beschleunigung des Trainings erreicht.

Ramchand Kumaresan2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Die Arbeit stellt einen verstärkungslernbasierten Ansatz vor, der durch dichteinvariantes Eingabe-Encoding, zufallsbasiertes Dichte-Training und physikbasierte Belohnungsgestaltung eine sichere Navigation in dichten Menschenmengen ermöglicht und dabei sowohl das Einfrieren analytischer Methoden als auch das Abstürzen herkömmlicher Lernverfahren bei veränderter Dichte überwindet.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

Die Arbeit stellt PolyBlocks vor, eine modulare, auf MLIR basierende Compiler-Infrastruktur, die durch passbasierte Transformationen und analytische Kostenmodelle automatisch hochoptimierten Code für KI-Frameworks und Chips generiert und dabei in Tests mit Torch Inductor sowie XLA konkurrieren kann.

Uday Bondhugula, Akshay Baviskar, Navdeep Katel, Vimal Patel, Anoop JS, Arnab Dutta2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

Die Arbeit stellt Calibrated Credit Intelligence (CCI) vor, ein Framework, das Bayesianische neuronale Netze, fairheitsbeschränkte Gradient Boosting-Modelle und eine schiftbewusste Fusionsstrategie kombiniert, um unter sich ändernden Datenverteilungen zuverlässige, gut kalibrierte und faire Kreditrisikobewertungen zu gewährleisten.

Srikumar Nayak2026-03-10🤖 cs.LG

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

Die vorgeschlagene Methode „Rank-Factorized Implicit Neural Bias" (RIB) ermöglicht die effiziente Nutzung von FlashAttention in Super-Resolution-Transformern, indem sie relative Positionsbias durch niedrig-rangige neuronale Repräsentationen ersetzt, was zu einer signifikanten Steigerung der Bildqualität bei gleichzeitiger drastischer Verkürzung von Trainings- und Inferenzzeiten führt.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

Heterogeneous Decentralized Diffusion Models

Die Arbeit stellt ein effizientes Framework für heterogene dezentrale Diffusionsmodelle vor, das durch die Kombination unterschiedlicher Trainingsziele (DDPM und Flow Matching), eine innovative Umrechnung zur Inferenz und eine optimierte Architektur den Rechenaufwand im Vergleich zu vorherigen Ansätzen um das 16-fache senkt und gleichzeitig die Bildqualität sowie die Vielfalt verbessert.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Die vorgestellte Arbeit schlägt einen Rahmen vor, der vortrainierte generative Modelle feinabstimmt, um realistische Proben direkt innerhalb komplexer, physikalisch oder sicherheitskritisch eingeschränkter Bereiche zu erzeugen und dabei einen neuen Kompromiss zwischen Constraint-Einhaltung und Probenqualität erreicht.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

Die Arbeit stellt StableDRL vor, eine für Diffusion-Sprachmodelle optimierte Reformulierung von GRPO, die durch unbedingtes Clipping und Selbstnormalisierung die Instabilität und den Reward-Kollaps bei der Nachtrainierung verhindert.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

← Zurück Weiter →