cs.CV Arbeiten | Gist.Science

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Die Arbeit stellt SCOTT und MIM-JEPA vor, eine Architektur und Trainingsmethode, die es Vision-Transformern ermöglicht, auch mit stark begrenzten Daten und Rechenressourcen robuste Repräsentationen zu erlernen und so die Abhängigkeit von großen Datensätzen in der selbstüberwachten Bildverarbeitung überwindet.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

Die Arbeit stellt NAMI vor, einen effizienten Bildgenerierungsansatz auf Basis von Rectified Flow-Transformern, der durch eine stufenweise, mehrstufige Architektur und ein BridgeFlow-Modul die Inferenzzeit um 64 % reduziert, ohne dabei die Bildqualität zu beeinträchtigen.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Der Artikel stellt ECLARE vor, eine effiziente selbstüberwachte Methode zur anisotropen Auflösungssteigerung von 2D-MRT-Schichtbildern, die durch die Schätzung des Schichtprofils und das Lernen innerhalb derselben Volumina Interpolationsfehler, Domänenverschiebungen und Lücken zwischen den Schichten überwindet und dabei alle aktuellen Methoden in der Signalwiederherstellung sowie bei nachgelagerten Aufgaben übertrifft.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Die Studie stellt EarthScape vor, einen multimodalen Datensatz und Benchmark für die KI-gestützte Kartierung der oberflächennahen Geologie, der verschiedene Datenquellen integriert und zeigt, dass Geländemerkmale robustere Vorhersagen liefern als reine spektrale oder Höheninformationen.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Diese Arbeit stellt einen neuen Testrahmen vor, der anhand psychophysischer Messungen der niederen visuellen Wahrnehmung (wie Kontrastsensitivität und -maskierung) die Leistungsfähigkeit von 34 etablierten Bild- und Videoqualitätsmetriken bewertet und dabei deren spezifische Stärken sowie systematische Schwächen im Vergleich zu menschlichen Sehprinzipien aufdeckt.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Der Artikel stellt FindAnything vor, einen effizienten Open-World-Mapping-Framework, der durch die Aggregation von Vision-Language-Features auf Objektebene eine skalierbare, semantisch ausdrucksstarke und geometrisch präzise 3D-Kartierung für ressourcenbeschränkte Roboter in Echtzeit ermöglicht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

Die Arbeit stellt GenCLIP vor, ein Framework für das zero-shot Anomalie-Erkennung, das durch mehrschichtige Prompting-Strategien, eine duale Inferenzarchitektur und einen adaptiven Textfilter die Stabilität und Generalisierungsfähigkeit von CLIP-basierten Modellen für unbekannte Kategorien verbessert.

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

Maximizing Asynchronicity in Event-based Neural Networks

Diese Arbeit stellt EVA vor, ein neuartiges asynchrones Framework, das durch die Übertragung von Sprachmodellierungstechniken auf die Ereignisverarbeitung überlegene Merkmalsrepräsentationen für Erkennungs- und Detektionsaufgaben in der ereignisbasierten Computer Vision ermöglicht.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Die Arbeit stellt BusterX vor, ein auf Multimodalen Large Language Models (MLLMs) basierendes System zur Erkennung und Erklärung von KI-generierten Video-Fälschungen, das durch den neuen Datensatz GenBuster-200K und das Benchmark-System GenBuster-Bench mit fortschrittlichen Evaluierungsprotokollen unterstützt wird.

Haiquan Wen, Yiwei He, Zhenglin Huang + 7 more2026-03-09💻 cs

DVD-Quant: Data-free Video Diffusion Transformers Quantization

Die Arbeit stellt DVD-Quant vor, ein datenfreies Quantisierungsframework für Video-Diffusions-Transformer, das durch innovative Techniken wie BGR, ARQ und $\delta$ -GBS eine W4A4-Quantisierung ohne Qualitätsverlust ermöglicht und eine etwa 2-fache Beschleunigung gegenüber Vollpräzisionsmodellen erzielt.

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang2026-03-09💻 cs

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Die Arbeit stellt „Alchemist" vor, einen kompakten und hocheffektiven Datensatz für das überwachte Feintuning von Text-zu-Bild-Modellen, der durch die Nutzung eines vortrainierten generativen Modells als Schätzer für hochwertige Trainingsdaten erstellt wurde und nachweislich die Bildqualität öffentlicher Modelle verbessert.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Die vorgestellte Arbeit führt einen neuartigen Rahmen zur Instanz-Datenkondensation für die Bild-Super-Resolution ein, der durch lokale Fourier-Feature-Extraktion und mehrstufige Merkmalsverteilungsanpassung synthetische Datensätze mit nur 10 % des Volumens erzeugt, die in Bezug auf Leistung und Trainingsstabilität mit den ursprünglichen Voll-Datensätzen vergleichbar sind.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Das Paper stellt VisioMath vor, ein Benchmark mit 1.800 mathematischen Aufgaben, bei denen Modelle zwischen visuell ähnlichen Diagrammen unterscheiden müssen, und zeigt, dass aktuelle Large Multimodal Models aufgrund von Fehlern bei der Bild-Text-Ausrichtung scheitern, was durch gezielte Alignierungsstrategien verbessert werden kann.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

Das Paper stellt VisualPrompter vor, ein trainingsfreies Framework zur semantischen Prompt-Optimierung für Text-zu-Bild-Modelle, das durch einen automatischen Selbstreflexionsmechanismus und eine atomare semantische Verfeinerung die semantische Übereinstimmung zwischen Benutzerbeschreibung und generiertem Bild verbessert und dabei neue State-of-the-Art-Ergebnisse erzielt.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

Die Arbeit stellt SPoT vor, eine neuartige Tokenisierungsmethode für Vision Transformer, die durch die kontinuierliche Platzierung von Tokens innerhalb eines Bildes und eine oracle-gesteuerte Suche die Beschränkungen diskreter Raster umgeht und so eine effizientere, interpretierbare Architektur mit deutlich reduziertem Tokenbedarf ermöglicht.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Die Arbeit stellt SPARC vor, ein Framework, das durch eine globale TopK-Sparsity-Mechanik und einen Cross-Reconstruction-Loss einen einheitlichen, modals- und architekturübergreifenden latenten Raum für Sparse Autoencoder schafft, um die Interpretierbarkeit und den direkten Vergleich von Konzepten in verschiedenen KI-Modellen zu ermöglichen.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

Die Arbeit stellt Token Bottleneck (ToBo) vor, einen selbstüberwachten Lernansatz, der dynamische Szenen in einen kompakten Token komprimiert, um durch Vorhersage zukünftiger Szenen zeitliche Abhängigkeiten zu erfassen und so die Leistung bei sequenziellen Aufgaben wie visuellem Tracking und robotischer Manipulation zu verbessern.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

Die Arbeit stellt NarrLV vor, das erste Benchmark-System zur umfassenden Bewertung narrativer Fähigkeiten in der Langzeit-Videogenerierung, das auf filmtheoretischen Konzepten wie „Temporal Narrative Atoms" und einem MLLM-basierten Evaluierungsframework aufbaut, um die Lücke zwischen aktuellen Modellen und menschlichen Urteilen zu schließen.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

Das Paper stellt den TomatoMAP-Datensatz vor, der über 64.000 annotierte Tomatenbilder aus verschiedenen Perspektiven und Winkeln enthält, um durch ein Deep-Learning-Framework die Genauigkeit und Reproduzierbarkeit der feinkörnigen Pflanzenphänotypisierung im Vergleich zu menschlichen Experten zu verbessern.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Das Paper stellt ExDD vor, ein neuartiges Framework zur Erkennung von Oberflächenfehlern, das durch die explizite Modellierung dualer Verteilungen, den Einsatz latenter Diffusionsmodelle zur Generierung synthetischer Defekte und einen benachbarkeitsbewussten Bewertungsmechanismus die Grenzen herkömmlicher Ein-Klassen-Anomalieerkennung überwindet und auf dem KSDD2-Datensatz überlegene Leistung erzielt.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

← Zurück Weiter →