cs.CV Arbeiten | Gist.Science

Evaluating Graphical Perception Capabilities of Vision Transformers

Diese Studie untersucht die graphische Wahrnehmungsfähigkeit von Vision Transformern im Vergleich zu CNNs und Menschen und stellt fest, dass ViTs trotz ihrer allgemeinen Stärken in der Bildverarbeitung nur eine begrenzte menschähnliche Wahrnehmung im Bereich der Visualisierung aufweisen.

Poonam Poonam, Pere-Pau Vázquez, Timo Ropinski2026-02-23💻 cs

A Self-Supervised Approach on Motion Calibration for Enhancing Physical Plausibility in Text-to-Motion

Die Arbeit stellt den Distortion-aware Motion Calibrator (DMC) vor, ein selbstüberwachtes Nachbearbeitungsmodul, das physikalisch unplausible Bewegungen aus Text-zu-Bewegungs-Modellen korrigiert und dabei sowohl die physikalische Plausibilität als auch die semantische Konsistenz mit der ursprünglichen Textbeschreibung verbessert.

Gahyeon Shim, Soogeun Park, Hyemin Ahn2026-02-23💻 cs

On the Adversarial Robustness of Discrete Image Tokenizers

Diese Arbeit untersucht erstmals die Anfälligkeit diskreter Bild-Tokenizer für adversarielle Angriffe und schlägt eine effektive, unüberwachte adversarielle Feinabstimmung vor, um deren Robustheit über verschiedene multimodale Aufgaben hinweg zu verbessern.

Rishika Bhagwatkar, Irina Rish, Nicolas Flammarion + 1 more2026-02-23🤖 cs.AI

RoEL: Robust Event-based 3D Line Reconstruction

Die Arbeit stellt RoEL vor, eine robuste Methode zur 3D-Linienrekonstruktion mit Event-Kameras, die durch einen cleveren Algorithmus zur Verfolgung von Linien über verschiedene Zeitscheiben hinweg und geometrische Kostenfunktionen präzise 3D-Karten und Kameraposen auch unter schwierigen Bedingungen und in multimodalen Szenarien ermöglicht.

Gwangtak Bae, Jaeho Shin, Seunggu Kang + 3 more2026-02-23💻 cs

DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

Das Paper stellt DEIG vor, ein neuartiges Framework, das durch einen Instanz-Detail-Extraktor und ein Detail-Fusions-Modul sowie eine speziell erstellte Datensatz-Benchmark die präzise, feingranulare und attributgetreue Generierung mehrerer Objekte in komplexen Szenen ermöglicht und dabei bestehende Methoden in Bezug auf semantische Genauigkeit und räumliche Konsistenz übertrifft.

Shiyan Du, Conghan Yue, Xinyu Cheng + 1 more2026-02-23💻 cs

Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation

Die Arbeit stellt LOTS vor, ein Framework zur Generierung von Modebildern, das globale Skizzenführung mit lokalisierten Text-Skizzen-Paaren kombiniert, und stellt zudem das erste entsprechende Datenset „Sketchy" mit professionellen und „in-the-wild"-Skizzen vor.

Ziyue Liu, Davide Talon, Federico Girella + 5 more2026-02-23💻 cs

Diff2DGS: Reliable Reconstruction of Occluded Surgical Scenes via 2D Gaussian Splatting

Die Arbeit stellt Diff2DGS vor, ein zweistufiges Framework, das durch diffusionsbasiertes Inpainting verdeckter Gewebestrukturen und eine anpassbare 2D-Gaussian-Splatting-Methode mit lernbarem Deformationsmodell eine zuverlässige, geometrisch präzise und in Echtzeit performante 3D-Rekonstruktion von okkludierten chirurgischen Szenen ermöglicht.

Tianyi Song, Danail Stoyanov, Evangelos Mazomenos + 1 more2026-02-23💻 cs

Unifying Color and Lightness Correction with View-Adaptive Curve Adjustment for Robust 3D Novel View Synthesis

Der Artikel stellt Luminance-GS++ vor, ein auf 3D-Gaussian-Splatting basierendes Framework, das durch eine globale, ansichtsadaptive Helligkeitsanpassung und lokale Nachverfeinerung robuste 3D-Neue-Ansicht-Synthese unter komplexen Lichtverhältnissen ermöglicht, ohne dabei die explizite Darstellung oder die Echtzeit-Rendering-Effizienz zu beeinträchtigen.

Ziteng Cui, Shuhong Liu, Xiaoyu Dong + 4 more2026-02-23💻 cs

G-LoG Bi-filtration for Medical Image Classification

Diese Arbeit stellt die G-LoG-Bifiltration vor, eine auf dem Laplace-Gauß-Operator basierende Methode zur topologischen Merkmalsextraktion aus medizinischen Bildern, die in Experimenten auf dem MedMNIST-Datensatz nicht nur einfache Einparameter-Filtrationen übertrifft, sondern es einem einfachen MLP ermöglicht, mit komplexen Deep-Learning-Modellen gleichzuziehen.

Qingsong Wang, Jiaxing He, Bingzhe Hou + 3 more2026-02-23🔢 math

Quantum-enhanced satellite image classification

Die Studie demonstriert, dass eine hybride quantenklassische Methode zur Merkmalsextraktion die Klassifizierungsgenauigkeit von Satellitenbildern im Vergleich zu rein klassischen Ansätzen um 2–3 % auf 87 % steigern kann, was die praktische Anwendbarkeit aktueller Quantenprozessoren in der Fernerkundung unterstreicht.

Qi Zhang, Anton Simen, Carlos Flores-Garrigós + 7 more2026-02-23⚛️ quant-ph

Self-Aware Object Detection via Degradation Manifolds

Die vorgestellte Arbeit führt ein selbstbewusstes Objekterkennungsframework ein, das durch kontrastives Lernen eine degradationsbewusste Repräsentationsgeometrie schafft, um Eingabebilder auf Abweichungen vom nominalen Betriebsbereich zu überwachen und so eine zuverlässige Fehlererkennung ohne externe Labels zu ermöglichen.

Stefan Becker, Simon Weiss, Wolfgang Hübner + 1 more2026-02-23💻 cs

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Die Arbeit stellt ein menschenzentriertes Video-Weltmodell vor, das durch präzise Steuerung von Kopf- und Handpositionen interaktive, egozentrische virtuelle Umgebungen generiert und damit im Vergleich zu bestehenden Ansätzen eine deutlich höhere wahrgenommene Kontrolle sowie eine verbesserte Aufgabenleistung ermöglicht.

Linxi Xie, Lisong C. Sun, Ashley Neall + 3 more2026-02-23💻 cs

Spatio-Spectroscopic Representation Learning using Unsupervised Convolutional Long-Short Term Memory Networks

Diese Arbeit stellt ein unüberwachtes Deep-Learning-Framework auf Basis von Convolutional Long-Short Term Memory Autoencodern vor, das räumliche und spektrale Merkmale von Galaxien aus dem MaNGA-IFS-Survey analysiert, um neue Erkenntnisse über die Galaxienentwicklung zu gewinnen und Anomalien bei aktiven galaktischen Kernen zu identifizieren.

Kameswara Bharadwaj Mantha, Lucy Fortson, Ramanakumar Sankar + 8 more2026-02-23🔭 astro-ph

The Geometry of Noise: Why Diffusion Models Don't Need Noise Conditioning

Diese Arbeit löst das Paradoxon autonomer Diffusionsmodelle, indem sie zeigt, dass deren zeitinvariante Vektorfelder als Riemannsche Gradientenflüsse auf einer marginalen Energie wirken, wobei eine lokale konforme Metrik die geometrischen Singularitäten kompensiert und die Stabilität von geschwindigkeitsbasierten gegenüber instabilen Rauschvorhersage-Parametrisierungen sichert.

Mojtaba Sahraee-Ardakan, Mauricio Delbracio, Peyman Milanfar2026-02-23⚡ eess

SARAH: Spatially Aware Real-time Agentic Humans

Das Paper stellt SARAH vor, ein Echtzeit-Verfahren für räumlich bewusste, agentenbasierte menschliche Avatare in VR, das durch einen kausalen Transformer-VAE und Flow-Matching natürlichere Ganzkörperbewegungen und Blickkontakt in Abhängigkeit von der Benutzerposition und -stimme ermöglicht.

Evonne Ng, Siwei Zhang, Zhang Chen + 2 more2026-02-23💻 cs

Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

Die Arbeit stellt MemStream vor, eine Methode, die durch Skalierung des Token-Budgets, adaptive Token-Auswahl und ein trainingsfreies Retrieval-Mixture-of-Experts-System die Genauigkeit beim Verständnis von Video-Streams und bei Video-Frage-Antwort-Aufgaben signifikant verbessert.

Vatsal Agarwal, Saksham Suri, Matthew Gwilliam + 2 more2026-02-23💻 cs

GRIHA: Synthesizing 2-Dimensional Building Layouts from Images Captured using a Smart Phone

Die Arbeit stellt GRIHA vor, ein effizientes Framework, das mithilfe von SLAM-Technologie und Standard-Smartphone-Kameras 2D-Gebäudegrundrisse aus RGB-Bildern generiert und dabei auf teure Tiefenkameras oder panoramafreie Aufnahmen verzichtet.

Shreya Goyal, Naimul Khan, Chiranjoy Chattopadhyay + 1 more2026-02-20💻 cs

Knowledge driven Description Synthesis for Floor Plan Interpretation

Diese Arbeit stellt zwei neue Modelle, DSIC und TBDG, vor, die mithilfe moderner Deep-Learning-Techniken aus Grundrissbildern flexible und detaillierte Textbeschreibungen generieren und dabei die Starrheit bestehender Methoden überwinden.

Shreya Goyal, Chiranjoy Chattopadhyay, Gaurav Bhatnagar2026-02-20💻 cs

MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints

Das Paper stellt MotionHint vor, einen neuartigen selbstüberwachten Algorithmus für die monokulare visuelle Odometrie, der durch die Integration eines neuronalen Bewegungsmodells (PPnet) und eines entsprechenden Verlustterms die Leistung bestehender Systeme auf dem KITTI-Benchmark signifikant verbessert und den absoluten Translationsfehler um bis zu 28,73 % reduziert.

Cong Wang, Yu-Ping Wang, Dinesh Manocha2026-02-20💻 cs

Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar

Die Arbeit stellt „Neural Point-based Volumetric Avatar" vor, eine effiziente und fotorealistische Methode zur Darstellung dynamischer Kopf-Avatare, die durch eine oberflächengeführte Neuronenpunkt-Repräsentation und innovative Sampling-Strategien komplexe Gesichtsbereiche wie Mund und Haare besser modelliert als bestehende mesh-basierte Ansätze.

Cong Wang, Di Kang, Yan-Pei Cao + 3 more2026-02-20💻 cs

← Zurück Weiter →