cs.CV Arbeiten | Gist.Science

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

TeHOR ist ein Framework zur textgesteuerten 3D-Rekonstruktion von Mensch und Objekt aus einem einzelnen Bild, das durch die Integration semantischer Textbeschreibungen und visueller Erscheinungsinformationen über die Grenzen rein kontaktbasierter Ansätze hinausgeht und so auch nicht-kontaktierende Interaktionen präzise und visuell plausibel erfasst.

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee2026-02-24🤖 cs.AI

BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPU

Die Arbeit stellt BayesFusion-SDF vor, eine CPU-basierte, probabilistische Framework für die 3D-Rekonstruktion, die Unsicherheiten systematisch modelliert und eine effiziente, GPU-unabhängige Alternative zu neuronalen Methoden bietet.

Soumya Mazumdar, Vineet Kumar Rakesh, Tapas Samanta2026-02-24💻 cs

Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Die Autoren stellen ein Proof-of-Concept-System vor, das durch die Kombination von YOLOv8-basierter Objekterkennung mit der symbolischen Iconclass-Vokabular-Hierarchie eine automatisierte ikonografische Klassifizierung und inhaltsbasierte Empfehlung für digitalisierte Kunstwerke ermöglicht, um die Katalogisierung und Navigation in großen Kulturerbebeständen zu beschleunigen.

Krzysztof Kutt, Maciej Baczyński2026-02-24🤖 cs.AI

HDR Reconstruction Boosting with Training-Free and Exposure-Consistent Diffusion

Die Arbeit stellt eine trainingsfreie Methode vor, die durch textgesteuerte Diffusionsmodelle und SDEdit-Verfeinerung überbelichtete Bereiche in HDR-Rekonstruktionen aus einzelnen LDR-Bildern plausibel wiederherstellt und dabei die Konsistenz über mehrere Belichtungen hinweg gewährleistet.

Yo-Tin Lin, Su-Kai Chen, Hou-Ning Hu + 2 more2026-02-24💻 cs

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Die Arbeit stellt Pose-VLA vor, ein zweistufiges VLA-Framework, das durch die Entkopplung von universellem 3D-Posen-Pretraining und effizienter Embodiment-Nachjustierung die Generalisierungsfähigkeit und Trainingsleistung von Robotern erheblich verbessert.

Haitao Lin, Hanyang Yu, Jingshun Huang + 5 more2026-02-24🤖 cs.LG

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

Die Arbeit stellt DeepfakeJudge vor, ein Framework, das durch einen bootstrappeden Generator-Evaluator-Prozess skalierbare und vertrauenswürdige visuelle Begründungen für die Deepfake-Erkennung ermöglicht und dabei die Genauigkeit von deutlich größeren Baseline-Modellen übertrifft.

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan + 1 more2026-02-24💻 cs

Generative 6D Pose Estimation via Conditional Flow Matching

Die Arbeit stellt Flose vor, eine generative Methode zur 6D-Pose-Schätzung, die bedingtes Flow Matching mit lokalen Merkmalen kombiniert, um Symmetrie-Ambiguitäten zu überwinden und auf dem BOP-Benchmark signifikant bessere Ergebnisse als bestehende Ansätze zu erzielen.

Amir Hamza, Davide Boscaini, Weihang Li + 2 more2026-02-24💻 cs

Towards Personalized Multi-Modal MRI Synthesis across Heterogeneous Datasets

Die Arbeit stellt PMM-Synth vor, ein personalisiertes Framework zur Synthese fehlender MRT-Modalitäten, das durch innovative Komponenten wie eine personalisierte Feature-Modulation und einen modalkonsistenten Batch-Scheduler eine robuste Generalisierung über heterogene klinische Datensätze hinweg ermöglicht und dabei die diagnostische Zuverlässigkeit verbessert.

Yue Zhang, Zhizheng Zhuo, Siyao Xu + 6 more2026-02-24💻 cs

VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

Der Artikel stellt VGGT-MPR vor, ein multimodales Framework für die Ortswiedererkennung im autonomen Fahren, das den Visual Geometry Grounded Transformer (VGGT) als einheitliche geometrische Engine nutzt, um durch tiefenbewusste visuelle Einbettungen und ein training-freies Nachsortierungsverfahren robuste und präzise globale Lokalisierung zu erreichen.

Jingyi Xu, Zhangshuo Qi, Zhongmiao Yan + 5 more2026-02-24💻 cs

RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting Processing

Die Arbeit stellt RAP vor, eine schnelle, renderfreie Methode, die die Wichtigkeit von 3D-Gaussian-Primitiven direkt aus deren Attributen vorhersagt, um redundante Daten zu eliminieren und die Effizienz bei Rekonstruktion, Kompression und Übertragung zu steigern.

Kaifa Yang, Qi Yang, Yiling Xu + 1 more2026-02-24💻 cs

Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications

Diese Studie präsentiert eine Benchmark-Analyse von zehn tiefen Stereo-Matching-Netzwerken, die auf dem Canterbury-Tree-Branches-Datensatz trainiert wurden, um für Echtzeit-UAV-Waldanwendungen die beste Balance zwischen Genauigkeit und Verarbeitungsgeschwindigkeit auf einer NVIDIA Jetson-Hardware zu identifizieren.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-24⚡ eess

Efficient endometrial carcinoma screening via cross-modal synthesis and gradient distillation

Die Studie stellt ein hocheffizientes, zweistufiges Deep-Learning-Framework vor, das durch cross-modale Synthese von MRT-Daten und Gradienten-Destillation die Früherkennung von Endometriumkarzinomen in ressourcenlimitierten Primärversorgungseinrichtungen revolutioniert und dabei die diagnostische Genauigkeit von Experten übertrifft.

Dongjing Shan, Yamei Luo, Jiqing Xuan + 7 more2026-02-24🤖 cs.AI

Open-vocabulary 3D scene perception in industrial environments

Diese Arbeit stellt eine trainingsfreie Pipeline für die offene Vokabular-3D-Wahrnehmung in industriellen Umgebungen vor, die durch das Zusammenführen semantischer Superpunkte und die Nutzung des domain-adaptierten Modells IndustrialCLIP die Generalisierungsschwächen bestehender, auf Haushaltsdaten trainierter Modelle überwindet.

Keno Moenck, Adrian Philip Florea, Julian Koch + 1 more2026-02-24💻 cs

TextShield-R1: Reinforced Reasoning for Tampered Text Detection

Das Paper stellt TextShield-R1 vor, ein multimodales Sprachmodell, das durch verstärktes Lernen, ein schrittweises Vortraining und eine OCR-basierte Nachkorrektur entwickelt wurde, um manipulierte Texte präzise zu erkennen und zu lokalisieren, und führt zudem den umfassenden TFR-Benchmark zur Evaluierung ein.

Chenfan Qu, Yiwu Zhong, Jian Liu + 3 more2026-02-24💻 cs

M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

Dieser Artikel stellt M3S-Net vor, ein neuartiges multimodales Feature-Fusionsnetzwerk, das durch die Kombination von Mehrskalen-Daten, partiellen Faltungen zur Erfassung feinkörniger Wolkenmerkmale und einem dynamischen C-Matrix-Austauschmechanismus im Mamba-Modul die ultra-kurzfristige Vorhersage von PV-Leistung gegenüber bestehenden Methoden signifikant verbessert.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-24💻 cs

DerMAE: Improving skin lesion classification through conditioned latent diffusion and MAE distillation

DerMAE verbessert die Klassifizierung von Hautläsionen durch die Generierung synthetischer Daten mittels klassenbedingter Diffusionsmodelle, das selbstüberwachte Vor-Training großer ViT-Modelle mit MAE und die anschließende Wissensdistillation auf kompakte Modelle für den effizienten klinischen Einsatz.

Francisco Filho, Kelvin Cunha, Fábio Papais + 6 more2026-02-24💻 cs

Contrastive meta-domain adaptation for robust skin lesion classification across clinical and acquisition conditions

Die Studie stellt eine kontrastive Meta-Domain-Adaptationsmethode vor, die durch die Übertragung visueller Repräsentationen aus großen Dermatoskopie-Datensätzen die Robustheit und Generalisierungsfähigkeit von Deep-Learning-Modellen für die Hautläsionsklassifikation unter variierenden klinischen und akquisitionsbedingten Bedingungen verbessert.

Rodrigo Mota, Kelvin Cunha, Emanoel dos Santos + 6 more2026-02-24💻 cs

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Die Arbeit stellt ApET vor, einen auf Approximationsfehler basierenden, aufmerksamkeitsfreien Token-Kompressionsansatz für Vision-Language-Modelle, der die Recheneffizienz durch FlashAttention-Kompatibilität erheblich steigert und dabei die Leistung in Bild- und Videoverständnisaufgaben nahezu vollständig erhält.

Qiankun Ma, Ziyao Zhang, Haofei Wang + 3 more2026-02-24💻 cs

GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

Das Paper stellt GOAL vor, ein einheitliches Framework für das kontinuierliche Entdecken verallgemeinerter Kategorien, das durch einen festen geometrisch optimalen Klassifikator das Vergessen alter Klassen reduziert und die Entdeckung neuer Klassen verbessert.

Jizhou Han, Chenhao Ding, SongLin Dong + 4 more2026-02-24🤖 cs.AI

BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations

Die Arbeit stellt BigMaQ vor, einen umfassenden Datensatz mit über 750 Szenen interagierender Rhesusmakaken, der erstmals detaillierte 3D-Pose- und Formdarstellungen in die automatische Verhaltenserkennung integriert und damit die Genauigkeit von Aktionsklassifizierungen sowie das Verständnis sozialer Interaktionen bei nicht-menschlichen Primaten signifikant verbessert.

Lucas Martini, Alexander Lappe, Anna Bognár + 2 more2026-02-24💻 cs

← Zurück Weiter →