Weight Space Representation Learning on Diverse NeRF Architectures

Diese Arbeit stellt einen bahnbrechenden, architekturunabhängigen Rahmen vor, der mithilfe eines Graph-Meta-Netzwerks und eines kontrastiven Lernziels NeRFs unterschiedlicher Architekturen (einschließlich MLPs, Tri-Planes und Hash-Tabellen) in einen gemeinsamen latenten Raum überführt, um robuste Inferenz und Aufgaben wie Klassifizierung, Retrieval und Sprachverarbeitung auch für beim Training nicht gesehene Architekturen zu ermöglichen.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Die Studie stellt HSSBench vor, ein umfassendes Benchmark mit über 13.000 mehrsprachigen Proben, das die Fähigkeiten multimodaler Sprachmodelle in den Geistes- und Sozialwissenschaften bewertet und dabei eine neuartige, von Experten und KI-Agenten gemeinsam entwickelte Datenpipeline nutzt, um die Lücke in der Bewertung interdisziplinären Denkens zu schließen.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Das Paper stellt Perception-R1 vor, eine Methode, die durch einen neuartigen visuellen Wahrnehmungsbelohnung im Rahmen des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die multimodale Wahrnehmung und Schlussfolgerungsfähigkeit von Large Multimodal Models (MLLMs) verbessert und dabei mit nur 1.442 Trainingsdaten state-of-the-art Ergebnisse auf mehreren Benchmarks erzielt.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

StreamSplat ist ein vollständig feed-forward Framework, das unkalibrierte Videostreams beliebiger Länge online und in Echtzeit in dynamische 3D-Gaussian-Splatting-Repräsentationen umwandelt und dabei durch probabilistische Sampling-Mechanismen, ein bidirektionales Deformationsfeld sowie adaptive Fusion eine bisher unerreichte Geschwindigkeit und Rekonstruktionsqualität ohne Optimierungsschritte erreicht.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

Diese Arbeit untersucht, wie synthetische Bilder, die von Text-zu-Bild-Modellen generiert werden, als visuelle Priors dienen können, um das textbasierte Schlussfolgern zu verbessern, und zeigt, dass dieser Ansatz die Leistung von Sprachmodellen signifikant steigern kann, sofern eine starke semantische Ausrichtung und hohe Generierungsqualität gewährleistet sind.

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs