MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

Der vorgestellte Ansatz MC-INR überwindet die Einschränkungen bestehender Implicit Neural Representations für multivariate wissenschaftliche Simulationsdaten auf unstrukturierten Gittern durch die Kombination von Meta-Learning, einem dynamischen Re-Clustering-Mechanismus und einer verzweigten Netzarchitektur, um eine effiziente und flexible Kodierung komplexer Strukturen zu ermöglichen.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Das Paper stellt InstructVLA vor, ein End-to-End-Modell, das durch eine neuartige Vision-Language-Action Instruction Tuning (VLA-IT)-Paradigme die flexible multimodale Reasoning-Fähigkeit großer Sprachmodelle mit präziser robotischer Manipulation verbindet und dabei sowohl in Simulationen als auch in der realen Welt signifikante Verbesserungen gegenüber bestehenden Ansätzen erzielt.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Diese Arbeit stellt fest, dass Vision-Language-Modelle trotz ihrer Fortschritte im multimodalen Reasoning für das autonome Fahren noch nicht bereit sind, da ihnen die räumliche Topologie-Erkenntnis als fundamentale Barriere fehlt, wobei die Leistung zwar mit Modellgröße und Reasoning-Tokens korreliert, aber insbesondere bei offenen Modellen und komplexen räumlichen Fragen unzureichend bleibt.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

Die Arbeit stellt Proxy-GS vor, eine Methode, die ein schnelles Proxy-System nutzt, um Okklusionsbewusstsein in das Training und Rendering von 3D-Gaussian-Splatting zu integrieren, wodurch sowohl die Wiedergabequalität in stark verdeckten Szenen verbessert als auch die Rendering-Geschwindigkeit im Vergleich zu bestehenden Ansätzen wie Octree-GS signifikant gesteigert wird.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

Die Arbeit stellt ArbInterp vor, ein neuartiges generatives Framework zur Video-Framinterpolation, das dank einer timestamp-bewussten Rotationspositionseingebettung (TaRoPE) und einer segmentweisen Zerlegung mit entkoppelter Konditionierung die flexible Synthese von Zwischenbildern zu beliebigen Zeitpunkten und in beliebigen Längen ermöglicht und dabei die bisherigen Methoden in Bezug auf Bildqualität und räumlich-zeitliche Kohärenz übertrifft.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Diese Arbeit zeigt, dass Reinforcement-Learning-basierte Bildqualitätsmodelle Generalisierung durch die Umwandlung visueller Merkmale in kompakte Textrepräsentationen erreichen, und stellt darauf aufbauend RALI vor, ein effizientes Verfahren, das diese generalisierbaren Repräsentationen direkt mittels kontrastivem Lernen nutzt, um die Inferenzkosten drastisch zu senken, ohne auf komplexe Schlussfolgerungsprozesse oder große Sprachmodelle angewiesen zu sein.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs