cs.CV Arbeiten | Gist.Science

PET-F2I: A Comprehensive Benchmark and Parameter-Efficient Fine-Tuning of LLMs for PET/CT Report Impression Generation

Die Studie stellt mit PET-F2I-41K einen umfassenden Benchmark für die Generierung von PET/CT-Befunden vor und zeigt, dass ein mittels LoRA feinabgestimmtes, parameter-effizientes 7B-Modell (PET-F2I-7B) in Bezug auf diagnostische Vollständigkeit und faktenbasierte Zuverlässigkeit deutlich besser abschneidet als bestehende Zero-Shot-Modelle.

Yuchen Liu, Wenbo Zhang, Liling Peng, Yichi Zhang, Yu Fu, Xin Guo, Chao Qu, Yuan Qi, Le Xue2026-03-12💻 cs

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

Das Paper stellt UniStitch vor, ein bahnbrechendes Framework, das durch die Entwicklung eines Neural Point Transformer und eines Adaptive Mixture of Experts Moduls handgefertigte geometrische Merkmale mit semantischen Merkmalen neuronaler Netze vereint, um den aktuellen State-of-the-Art bei der Bildstitching-Genauigkeit deutlich zu übertreffen.

Yuan Mei, Lang Nie, Kang Liao, Yunqiu Xu, Chunyu Lin, Bin Xiao2026-03-12💻 cs

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

Die Arbeit stellt R4-CGQA vor, ein retrieval-basiertes Framework für Vision-Language-Modelle, das durch die Einführung eines neuen Datensatzes mit sechs Qualitätsdimensionen und einer zweistromigen Abrufarchitektur die Bewertung und textbasierte Erklärung der Bildqualität von Computergrafiken signifikant verbessert.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin2026-03-12💻 cs

Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution

Die Arbeit stellt LIDA vor, einen effizienten, modellagnostischen Rahmen, der die Zuordnung von KI-generierten Bildern als Instanzwiederfindungsproblem formuliert und durch eine unsupervised Vortrainierung mit Few-Shot-Anpassung state-of-the-art-Ergebnisse in Null- und Few-Shot-Szenarien erzielt.

Hongsong Wang, Renxi Cheng, Chaolei Han, Jie Gui2026-03-12💻 cs

Need for Speed: Zero-Shot Depth Completion with Single-Step Diffusion

Die Arbeit stellt Marigold-SSD vor, ein effizientes Ein-Schritt-Diffusions-Framework zur Zero-Shot-Tiefenvervollständigung, das durch Verlagerung der Rechenlast auf das Fine-Tuning die Inferenzgeschwindigkeit drastisch erhöht und dabei eine starke Generalisierungsfähigkeit über verschiedene Domänen hinweg erreicht.

Jakub Gregorek, Paraskevas Pegios, Nando Metzger, Konrad Schindler, Theodora Kontogianni, Lazaros Nalpantidis2026-03-12💻 cs

Layer Consistency Matters: Elegant Latent Transition Discrepancy for Generalizable Synthetic Image Detection

Die Arbeit stellt eine neue Methode namens Latent Transition Discrepancy (LTD) vor, die durch die Analyse der Konsistenzunterschiede in den latenten Darstellungen zwischen echten und synthetischen Bildern eine überlegene Generalisierbarkeit und Detektionsgenauigkeit bei der Erkennung von KI-generierten Bildern erreicht.

Yawen Yang, Feng Li, Shuqi Kong, Yunfeng Diao, Xinjian Gao, Zenglin Shi, Meng Wang2026-03-12💻 cs

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Die Arbeit stellt HyPER-GAN vor, einen leichten U-Net-basierten Generator für die Echtzeit-Bild-zu-Bild-Übersetzung, der durch eine hybride Trainingsstrategie mit realen Bildpatches die photorealistische Qualität und semantische Konsistenz synthetischer Daten verbessert, ohne dabei die Inferenzgeschwindigkeit zu beeinträchtigen.

Stefanos Pasios, Nikos Nikolaidis2026-03-12💻 cs

MUNIChus: Multilingual News Image Captioning Benchmark

Das Paper stellt MUNIChus vor, das erste multilinguale Benchmark für die Bildunterschriftenerstellung in Nachrichten mit neun Sprachen, einschließlich ressourcenarmer Sprachen wie Singhalesisch und Urdu, um die Entwicklung und Evaluierung mehrsprachiger Modelle zu fördern.

Yuji Chen, Alistair Plum, Hansi Hettiarachchi, Diptesh Kanojia, Saroj Basnet, Marcos Zampieri, Tharindu Ranasinghe2026-03-12💬 cs.CL

Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

Das Paper Splat2Real adressiert die Herausforderung der viewpoint shift bei Physical AI, indem es ein Curriculum-Lernverfahren namens CN-Coverage einführt, das durch die intelligente Auswahl neuartiger Ansichten mittels 3D-Gaussian-Splatting die Robustheit monokularer Tiefenschätzung verbessert.

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

Die Arbeit stellt SLiM vor, ein neuartiges, dekodiererfreies Framework für das Lernen von Skelettdarstellungen, das Masked Modeling und Contrastive Learning vereint, um durch semantische Rohrmaskierung und skelettspezifische Augmentierungen sowohl state-of-the-art Genauigkeit als auch eine um den Faktor 7,89 reduzierte Inferenzkosten im Vergleich zu herkömmlichen MAE-Methoden zu erreichen.

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

Are Video Reasoning Models Ready to Go Outside?

Die Arbeit stellt ROVA, ein Trainingsframework, und PVRBench, einen neuen Benchmark, vor, um die Robustheit von Video-Reasoning-Modellen gegenüber realen Störungen wie Wetter und Verdeckungen zu verbessern und dabei signifikante Genauigkeits- sowie Schlussfolgerungsgewinne zu erzielen.

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

How To Embed Matters: Evaluation of EO Embedding Design Choices

Diese Studie analysiert systematisch die Auswirkungen verschiedener Designentscheidungen auf die Leistung von Erdbeobachtungs-Embeddings in GeoFM-basierten Workflows und zeigt, dass Transformer-Architekturen mit Mean Pooling sowie die Kombination mehrerer Selbstüberwachungs-Ziele robuste und extrem kompakte Repräsentationen für skalierbare Anwendungen liefern.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Diese Arbeit stellt eine effiziente, pipelinierte FPGA-Architektur für die Verschiebungsvektorsuche im Intra-Pattern-Copy-Modul von JPEG XS vor, die durch optimierte Speicherorganisation eine hohe Durchsatzrate von 38,3 Megapixeln pro Sekunde bei geringem Energieverbrauch erreicht und somit die praktische Hardware-Implementierung ermöglicht.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A $^2$ -Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

Das Paper stellt A $^2$ -Edit vor, ein einheitliches Inpainting-Framework, das mithilfe des neuartigen UniEdit-500K-Datensatzes, eines Mixture-of-Transformer-Moduls und einer Mask-Annealing-Trainingsstrategie präzises, referenzgesteuertes Bearbeiten beliebiger Objekte mit nur groben Masken ermöglicht und dabei den aktuellen Stand der Technik übertrifft.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

Die Arbeit stellt MapGCLR vor, eine Methode zur halbüberwachten, vektorisierten Online-HD-Kartenkonstruktion für autonome Fahrzeuge, die durch geospatiale kontrastives Lernen und die Nutzung von Mehrfachüberquerungen die Leistung gegenüber rein überwachten Baselines verbessert.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

Bioinspired CNNs for border completion in occluded images

Die Arbeit stellt BorderNet vor, ein auf mathematischen Modellen der visuellen Kortexverarbeitung basierendes CNN, das durch speziell entworfene Filter die Robustheit gegenüber Bildokklusionen verbessert.

Catarina P. Coutinho, Aneeqa Merhab, Janko Petkovic, Ferdinando Zanchetta, Rita Fioresi2026-03-12💻 cs

RandMark: On Random Watermarking of Visual Foundation Models

Die Arbeit stellt RandMark vor, eine Methode zur Verifizierung des Eigentums an visuellen Fundamentmodellen, die durch zufälliges Einbetten digitaler Wasserzeichen in interne Repräsentationen eine zuverlässige Erkennung von Funktionskopien bei gleichzeitig geringer Fehlerrate ermöglicht.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.AI

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Das Paper stellt UniCom vor, ein einheitliches Multimodal-Modell, das durch komprimierte kontinuierliche semantische Repräsentationen und eine Transfusionsarchitektur die Lücke zwischen visuellem Verständnis und Generierung schließt und dabei state-of-the-art Ergebnisse in Bildgenerierung und -bearbeitung erzielt.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Das Paper stellt WalkGPT vor, ein pixelbasiertes Vision-Language-Modell mit Tiefenwahrnehmung und Segmentierungsfähigkeiten, das zusammen mit dem neuen Benchmark PAVE zuverlässige, zugängliche Navigationshinweise für Fußgänger in komplexen städtischen Umgebungen generiert.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Die Arbeit stellt CTCNet vor, ein neuartiges, cross-spektrales Netzwerk mit Wissens-Einbettung und spektraler Kompensation für eine robuste UAV-Verkehrsszenenanalyse unter schwierigen Lichtverhältnissen, und stellt gleichzeitig Traffic-VQA, den ersten großskaligen optisch-thermischen Benchmark für kognitive Verkehrsverständnis-Aufgaben, vor.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

← Zurück Weiter →

cs.CV