cs.CV Arbeiten | Gist.Science

DeLiVR: Differential Spatiotemporal Lie Bias for Efficient Video Deraining

Die Arbeit stellt DeLiVR vor, eine effiziente Methode zur Videorentfernung von Regen, die durch die Integration von differenziellen Lie-Gruppen-Bias-Termen in die Aufmerksamkeitsmechanismen eine geometrisch konsistente und robuste räumlich-zeitliche Ausrichtung erreicht, um Regenstreifen, Unschärfe und Rauschen zu beseitigen.

Shuning Sun, Jialang Lu, Xiang Chen + 5 more2026-02-17💻 cs

LAKAN: Landmark-assisted Adaptive Kolmogorov-Arnold Network for Face Forgery Detection

Die Arbeit stellt LAKAN vor, eine landmarkengestützte, adaptive Kolmogorov-Arnold-Netzwerk-Architektur, die durch den Einsatz lernbarer Spline-Aktivierungsfunktionen und geometrischer Priors eine überlegene Leistung bei der Erkennung von Deepfake-Gesichtsfälschungen erzielt.

Jiayao Jiang, Bin Liu, Qi Chu + 1 more2026-02-17💻 cs

Efficient Test-Time Scaling for Small Vision-Language Models

Diese Arbeit stellt zwei effiziente Test-Time-Scaling-Strategien für kleine Vision-Language-Modelle vor, die durch augmentierungsbasierte Token-Aggregation und konsensbasierte Parameteranpassung während der Inferenz die Leistung steigern, ohne die Ressourceneffizienz zu beeinträchtigen.

Mehmet Onurcan Kaya, Desmond Elliott, Dim P. Papadopoulos2026-02-17🤖 cs.LG

UGround: Towards Unified Visual Grounding with Unrolled Transformers

Das Paper stellt UGround vor, ein einheitliches Paradigma für visuelles Grounding, das durch eine Reinforcement-Learning-gesteuerte, stochastische Auswahl von Zwischenschichten in unrollierten Transformern und die Nutzung von Masken als explizite räumliche Prompts die Fehlerakkumulation herkömmlicher Ansätze überwindet und eine Vielzahl von Aufgaben von der Referenzsegmentierung bis hin zur Reasoning-Segmentierung in einem einzigen Framework vereint.

Rui Qian, Xin Yin, Chuanhang Deng + 4 more2026-02-17💻 cs

PAGCNet: A Pose-Aware and Geometry Constrained Framework for Panoramic Depth Estimation

Die Arbeit stellt PAGCNet vor, ein Framework zur panoramischen Tiefenschätzung, das durch die gemeinsame Schätzung von Kamerapose und Raumaufbau geometrische Randbedingungen für regelmäßige Innenräume nutzt, um die Tiefenrekonstruktion in komplexen Szenen ohne externe Messungen signifikant zu verbessern.

Kanglin Ning, Ruzhao Chen, Penghong Wang + 3 more2026-02-17💻 cs

The impact of abstract and object tags on image privacy classification

Die Studie zeigt, dass abstrakte Tags bei begrenztem Budget für die Klassifizierung von Bildprivatsphäre effektiver sind als Objekttags, während bei einer größeren Anzahl von Tags objektspezifische Informationen ebenso nützlich werden.

Darya Baranouskaya, Andrea Cavallaro2026-02-17💻 cs

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

Diese Arbeit stellt rCM vor, einen score-regulierten kontinuierlichen Konsistenzansatz, der durch einen parallelisierbaren JVP-Kernel und eine Regularisierung die Skalierung von Diffusionsmodellen auf große Bild- und Videomodelle ermöglicht, dabei die Qualität verbessert und die Generierung um den Faktor 15 bis 50 beschleunigt.

Kaiwen Zheng, Yuji Wang, Qianli Ma + 7 more2026-02-17🤖 cs.LG

AnyUp: Universal Feature Upsampling

Die Arbeit stellt AnyUp vor, eine effiziente und trainingsfreie Methode zur universellen Upsampling von Vision-Features beliebiger Auflösung, die im Gegensatz zu bestehenden Ansätzen ohne anwendungsspezifisches Training auskommt und dabei die Semantik der Merkmale erhält.

Thomas Wimmer, Prune Truong, Marie-Julie Rakotosaona + 4 more2026-02-17🤖 cs.LG

Consistent text-to-image generation via scene de-contextualization

Dieses Paper stellt SDeC vor, eine effiziente, trainingsfreie Methode, die durch die Unterdrückung latenter Szenen-Kontext-Korrelationen in Prompt-Embeddings eine konsistente Text-zu-Bild-Generierung mit identitätserhaltenden Subjekten über diverse Szenen hinweg ermöglicht, ohne dass alle Ziel-Szenen im Voraus bekannt sein müssen.

Song Tang, Peihao Gong, Kunyu Li + 5 more2026-02-17💻 cs

PC-UNet: An Enforcing Poisson Statistics U-Net for Positron Emission Tomography Denoising

Die vorgestellte Arbeit stellt PC-UNet vor, ein auf U-Net basierendes Modell mit einem neuartigen Poisson-Varianz- und Mittelwert-Konsistenzverlust, das physikalische Daten integriert, um die Bildqualität bei der Rauschunterdrückung in der Positronen-Emissions-Tomographie (PET) bei niedrigen Strahlendosen zu verbessern.

Yang Shi, Jingchao Wang, Liangsi Lu + 9 more2026-02-17🤖 cs.AI

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Die Arbeit stellt PRISMM-Bench vor, den ersten Benchmark, der auf von Gutachtern identifizierten Inkonsistenzen in wissenschaftlichen Publikationen basiert und zeigt, dass aktuelle Large Multimodal Models bei der Erkennung und Behebung multimodaler Widersprüche in wissenschaftlichen Texten erhebliche Schwierigkeiten haben.

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza + 4 more2026-02-17💻 cs

Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?

Die Studie führt das Phänomen der „Modal-Aphasie" ein, bei dem einheitliche multimodale Modelle visuelle Konzepte zwar perfekt memorieren und generieren, aber scheitern, diese korrekt in Textform zu beschreiben, was Sicherheitslücken in KI-Systemen aufzeigt.

Michael Aerni, Joshua Swanson, Kristina Nikolić + 1 more2026-02-17💻 cs

Top-Down Semantic Refinement for Image Captioning

Die Arbeit stellt Top-Down Semantic Refinement (TDSR) vor, einen effizienten, auf Monte-Carlo-Baumsuche basierenden Rahmen, der die Bildbeschreibung durch hierarchische, zielgerichtete Verfeinerung optimiert und so die Kohärenz und Detailgenauigkeit bestehender Vision-Language-Modelle erheblich verbessert, ohne deren Rechenkosten signifikant zu erhöhen.

Jusheng Zhang, Kaitong Cai, Jing Yang + 3 more2026-02-17🤖 cs.AI

Formal Reasoning About Confidence and Automated Verification of Neural Networks

Diese Arbeit stellt ein generalisiertes Framework vor, das durch die Einführung zusätzlicher Schichten in neuronale Netze eine einheitliche formale Verifikation von sowohl Robustheit als auch Konfidenz ermöglicht und dabei bestehende ad-hoc-Ansätze signifikant übertrifft.

Mohammad Afzal, S. Akshay, Blaise Genest + 1 more2026-02-17🤖 cs.AI

Algorithms Trained on Normal Chest X-rays Can Predict Health Insurance Types

Diese Studie zeigt, dass KI-Modelle, die auf normalen Röntgenbildern des Thorax trainiert wurden, die Art der Krankenversicherung – und damit sozioökonomische Ungleichheiten – mit signifikanter Genauigkeit vorhersagen können, was darauf hindeutet, dass medizinische Bilddaten keine neutralen biologischen Informationen sind, sondern subtile soziale Signaturen enthalten.

Chi-Yu Chen, Rawan Abulibdeh, Arash Asgari + 8 more2026-02-17🤖 cs.AI

MPCM-Net: Multi-scale network integrates partial attention convolution with Mamba for ground-based cloud image segmentation

Die vorgestellte Arbeit stellt MPCM-Net vor, ein Multi-Scale-Netzwerk, das partielle Aufmerksamkeits-Convolutionen mit Mamba-Architekturen kombiniert, um die Segmentierung bodengestützter Wolkenbilder für die Photovoltaik-Prognose zu verbessern, und stellt zudem den neuen CSRC-Datensatz als Benchmark zur Verfügung.

Penghui Niu, Jiashuai She, Taotao Cai + 4 more2026-02-17🤖 cs.LG

Procedural Mistake Detection via Action Effect Modeling

Der Artikel stellt Action Effect Modeling (AEM) vor, ein einheitliches Framework, das durch die gemeinsame Modellierung von Handlungsausführung und deren Ergebnis sowie die Nutzung von visuellen und symbolischen Hinweisen den Zustand-der-Kunst in der Erkennung von Verfahrensfehlern unter der einschränkenden One-Class-Klassifizierung auf den Benchmarks EgoPER und CaptainCook4D erreicht.

Wenliang Guo, Yujiang Pu, Yu Kong2026-02-17💻 cs

Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding

Die vorgestellte Arbeit stellt eine neuartige, semantisch geführte Zwei-Stage-GAN-Architektur mit hybrider perceptueller Kodierung vor, die durch die Kombination von CNNs und Vision Transformern sowie einen Multi-Modal-Texture-Generator hochqualitative Gesichtsrekonstruktionen auch bei großen, unregelmäßigen Masken ermöglicht und dabei die Identität sowie strukturelle Konsistenz verbessert.

Abhigyan Bhattacharya, Hiranmoy Roy, Debotosh Bhattacharjee2026-02-17💻 cs

Fourier-RWKV: A Multi-State Perception Network for Efficient Image Dehazing

Das Paper stellt Fourier-RWKV vor, ein effizientes Bildentnebelungsnetzwerk mit linearer Komplexität, das durch die Integration von räumlicher, frequenzbasierter und semantischer Wahrnehmung einen optimalen Kompromiss zwischen Restaurationsqualität und Recheneffizienz bietet.

Lirong Zheng, Yanshan Li, Rui Yu + 1 more2026-02-17💻 cs

Learning Patient-Specific Disease Dynamics with Latent Flow Matching for Longitudinal Imaging Generation

Das Paper stellt Δ-LFM vor, ein Framework, das mittels Latent Flow Matching patientenspezifische Krankheitsdynamiken modelliert, indem es durch latente Ausrichtung eine semantisch kohärente und monotone Darstellung des Krankheitsverlaufs in longitudinalen Bilddaten ermöglicht.

Hao Chen, Rui Yin, Yifan Chen + 2 more2026-02-17🤖 cs.AI

← Zurück Weiter →