ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Der Artikel stellt ECLARE vor, eine effiziente selbstüberwachte Methode zur anisotropen Auflösungssteigerung von 2D-MRT-Schichtbildern, die durch die Schätzung des Schichtprofils und das Lernen innerhalb derselben Volumina Interpolationsfehler, Domänenverschiebungen und Lücken zwischen den Schichten überwindet und dabei alle aktuellen Methoden in der Signalwiederherstellung sowie bei nachgelagerten Aufgaben übertrifft.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Diese Arbeit stellt einen neuen Testrahmen vor, der anhand psychophysischer Messungen der niederen visuellen Wahrnehmung (wie Kontrastsensitivität und -maskierung) die Leistungsfähigkeit von 34 etablierten Bild- und Videoqualitätsmetriken bewertet und dabei deren spezifische Stärken sowie systematische Schwächen im Vergleich zu menschlichen Sehprinzipien aufdeckt.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Der Artikel stellt FindAnything vor, einen effizienten Open-World-Mapping-Framework, der durch die Aggregation von Vision-Language-Features auf Objektebene eine skalierbare, semantisch ausdrucksstarke und geometrisch präzise 3D-Kartierung für ressourcenbeschränkte Roboter in Echtzeit ermöglicht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Die Arbeit stellt „Alchemist" vor, einen kompakten und hocheffektiven Datensatz für das überwachte Feintuning von Text-zu-Bild-Modellen, der durch die Nutzung eines vortrainierten generativen Modells als Schätzer für hochwertige Trainingsdaten erstellt wurde und nachweislich die Bildqualität öffentlicher Modelle verbessert.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Die vorgestellte Arbeit führt einen neuartigen Rahmen zur Instanz-Datenkondensation für die Bild-Super-Resolution ein, der durch lokale Fourier-Feature-Extraktion und mehrstufige Merkmalsverteilungsanpassung synthetische Datensätze mit nur 10 % des Volumens erzeugt, die in Bezug auf Leistung und Trainingsstabilität mit den ursprünglichen Voll-Datensätzen vergleichbar sind.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

Das Paper stellt VisualPrompter vor, ein trainingsfreies Framework zur semantischen Prompt-Optimierung für Text-zu-Bild-Modelle, das durch einen automatischen Selbstreflexionsmechanismus und eine atomare semantische Verfeinerung die semantische Übereinstimmung zwischen Benutzerbeschreibung und generiertem Bild verbessert und dabei neue State-of-the-Art-Ergebnisse erzielt.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

Die Arbeit stellt SPoT vor, eine neuartige Tokenisierungsmethode für Vision Transformer, die durch die kontinuierliche Platzierung von Tokens innerhalb eines Bildes und eine oracle-gesteuerte Suche die Beschränkungen diskreter Raster umgeht und so eine effizientere, interpretierbare Architektur mit deutlich reduziertem Tokenbedarf ermöglicht.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Die Arbeit stellt SPARC vor, ein Framework, das durch eine globale TopK-Sparsity-Mechanik und einen Cross-Reconstruction-Loss einen einheitlichen, modals- und architekturübergreifenden latenten Raum für Sparse Autoencoder schafft, um die Interpretierbarkeit und den direkten Vergleich von Konzepten in verschiedenen KI-Modellen zu ermöglichen.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

Die Arbeit stellt NarrLV vor, das erste Benchmark-System zur umfassenden Bewertung narrativer Fähigkeiten in der Langzeit-Videogenerierung, das auf filmtheoretischen Konzepten wie „Temporal Narrative Atoms" und einem MLLM-basierten Evaluierungsframework aufbaut, um die Lücke zwischen aktuellen Modellen und menschlichen Urteilen zu schließen.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Das Paper stellt ExDD vor, ein neuartiges Framework zur Erkennung von Oberflächenfehlern, das durch die explizite Modellierung dualer Verteilungen, den Einsatz latenter Diffusionsmodelle zur Generierung synthetischer Defekte und einen benachbarkeitsbewussten Bewertungsmechanismus die Grenzen herkömmlicher Ein-Klassen-Anomalieerkennung überwindet und auf dem KSDD2-Datensatz überlegene Leistung erzielt.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI