Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Diese Arbeit stellt ein neuartiges Modell gekoppelter Oszillatoren (CON) vor, das durch die Kombination von Lagrange-Struktur, globaler Input-to-State-Stabilität und einer invertierbaren Abbildung zwischen Eingabe und latenter Kraft effiziente, modellbasierte Regelung im latenten Raum für physikalische Systeme ermöglicht, wie am Beispiel eines Soft-Roboters demonstriert wird.

Maximilian Stölzle, Cosimo Della Santina2026-03-10🤖 cs.LG

Neural delay differential equations: learning non-Markovian closures for partially known dynamical systems

Die Arbeit stellt ein kontinuierliches Zeit-Modell auf Basis von neuronalen Verzögerungsdifferentialgleichungen vor, das mithilfe des Mori-Zwanzig-Formalismus und des Adjungierten-Verfahrens nicht-Markowsche Dynamiken aus teilweise beobachtbaren Daten lernt und dabei bestehende Methoden wie LSTMs und ANODEs übertrifft.

Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat2026-03-10🤖 cs.LG

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Diese Arbeit stellt eine Methode vor, die vortrainierte Vision-Language-Modelle nutzt, um abstrakte symbolische Weltmodelle aus wenigen Bild-Demonstrationen zu lernen, wodurch Roboter in der Lage sind, langfristige Entscheidungsprobleme in komplexen Umgebungen durch Planung auf neue Ziele und Szenarien zu verallgemeinern.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Die vorgestellte Arbeit stellt ein neues Ensemble-Framework für neuronale maschinelle Übersetzung vor, das mithilfe von Pivot-Übersetzungen und einer nachträglichen Aggregation mit nur einem einzigen Modell die Übersetzungsqualität für ressourcenarme Sprachpaare verbessert, ohne die hohen Trainingskosten herkömmlicher Mehrfachmodelle zu verursachen.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Die Arbeit stellt Prompt-SID vor, ein selbstüberwachtes Framework für die Einzelbild-Denoising, das mittels latenten Diffusionsprozessen strukturelle Prompts generiert und über einen Transformer-basierten Aufmerksamkeitsmechanismus integriert, um strukturelle Details zu bewahren und die Effizienz gegenüber bestehenden blind-spot-basierten Methoden zu steigern.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Die Studie stellt das Framework „Texts as Time Series" (TaTS) vor, das zeitlich gepaarte Texte als Hilfsvariablen nutzt, um bestehende reine Zahlen-basierte Zeitreihenmodelle ohne Architekturänderungen zu erweitern und deren Vorhersage- sowie Imputationsleistung in multimodalen Szenarien zu verbessern.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG