cs.CV Arbeiten | Gist.Science

Bridging Human Evaluation to Infrared and Visible Image Fusion

Die Autoren stellen einen Feedback-Reinforcement-Learning-Rahmen vor, der durch die Einführung des ersten groß angelegten menschlichen Feedback-Datensatzes für die Infrarot- und sichtbare Bildfusion sowie die Optimierung mittels eines Belohnungsmodells und Group Relative Policy Optimization die Qualität fusionierter Bilder an menschliche ästhetische Präferenzen anpasst.

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

Das Paper stellt Yolo-Key-6D vor, einen schnellen und präzisen einstufigen Framework zur monokularen 6D-Pose-Schätzung, der durch die Integration eines Keypoint-Hilfsheads und eine stabile Rotationsschätzung Echtzeitanwendungen in Robotik und Erweiteter Realität ermöglicht.

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

Die Arbeit stellt UniSync vor, ein einheitliches Framework, das durch eine innovative Kombination aus maskenfreiem Training und maskenbasierter Inferenz hochrealistische Lippen-Synchronisation in komplexen Szenarien wie stilisierten Avataren oder extremer Beleuchtung ermöglicht und dabei den neuen RealWorld-LipSync-Benchmark einführt.

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

A novel network for classification of cuneiform tablet metadata

Diese Arbeit stellt ein neuartiges, konvolutional inspiriertes Netzwerk vor, das die Klassifizierung von Metadaten keilschriftlicher Tontafeln durch eine schrittweise Down-Skalierung der Punktwolken und die Integration lokaler sowie globaler Informationen ermöglicht und dabei die Leistungsfähigkeit des aktuellen State-of-the-Art-Modells Point-BERT übertrifft.

Frederik Hagelskjær2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Die Arbeit stellt ein einheitliches Bewertungsframework mit neuen Metriken und der verbesserten Methode SURE+ vor, das die gemeinsame Erfassung von Out-of-Distribution-Daten und Klassifikationsfehlern ermöglicht, um zuverlässigere und vertrauenswürdige KI-Modelle für reale Anwendungen zu schaffen.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Die Arbeit stellt eine modulare, asynchrone Tracking-Architektur (MATA) vor, die Transformer-basierte Verfolgung mit einem erweiterten Kalman-Filter und Ego-Bewegungskompensation kombiniert, und führt ein hardwareunabhängiges Evaluierungsprotokoll mit der neuen Metrik „Normalized time to Failure" ein, um die Echtzeitfähigkeit auf eingebetteten UAV-Systemen zu verbessern.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

Die Autoren stellen mit FGAesthetics eine neue Datenbank für feinkörnige ästhetische Bildbewertungen vor und entwickeln das FGAesQ-Framework, das durch relative Rangordnungen und innovative Techniken wie DiffToken, CTAlign und RankReg präzise ästhetische Scores auch bei subtilen Bildunterschieden lernt.

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Dieses Paper stellt eine Methode namens N-gram-Injektion vor, die Transformer-basierte Modelle für die Handschrifterkennung ermöglicht, ihre Sprachmodellierung zur Laufzeit dynamisch an neue Textverteilungen anzupassen und so die Leistung bei Sprachverschiebungen ohne zusätzliches Training auf Ziel-Daten zu verbessern.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

Die Arbeit stellt DISC vor, ein neuartiges, voll GPU-beschleunigtes Framework für die großflächige Open-Set-Semantische Kartierung, das durch eine einstufige, gewichtete Extraktion von CLIP-Embeddings und eine Echtzeit-Voxel-Verfeinerung die Limitierungen bestehender instanzbasierter Ansätze überwindet und so eine robuste, latenzfreie robotische Wahrnehmung ermöglicht.

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Die Arbeit stellt CMDR-IAD vor, ein leichtgewichtiges, unüberwachtes Framework für die industrielle Anomalieerkennung, das durch bidirektionale 2D-3D-Kreuzmodalkartierung und eine duale Rekonstruktionsarchitektur robuste und präzise Ergebnisse sowohl in multimodalen als auch in einmodalen Szenarien erzielt.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Diese Studie zeigt, dass ein auf DenseNet121 basierendes Deep-Learning-Modell hyper- und hypointense Artefakte in hochb-Wertigen Brust-DWI-Aufnahmen (b=1500 s/mm²) mit hoher Genauigkeit erkennen und lokalisieren kann, was die slice-basierte Bildqualitätssicherung unterstützt.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

Diese Arbeit stellt Spatial Causal Prediction (SCP) als neue Aufgabe vor, die Modelle herausfordert, über sichtbare räumlich-zeitliche Zusammenhänge hinaus zu schließen, und führt mit SCP-Bench einen umfassenden Benchmark ein, der erhebliche Lücken zwischen menschlicher und maschineller Leistung in der räumlich-kausalen Vorhersage aufzeigt.

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

Die Arbeit stellt RVN-Bench vor, einen kollisionsbewussten Benchmark auf Basis von Habitat 2.0 und HM3D-Szenen, der das Training und die Evaluierung sicherer visueller Navigation für mobile Roboter in komplexen Innenräumen ermöglicht.

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

Dieses Papier stellt eine Methode zur Synthese von Trainingsdaten und ein entsprechendes Netzwerk vor, die durch die Generierung von unalignierten Bildpaaren mit strukturerhaltenden, diversen Texturen und die Entkopplung von Farb- und Strukturinformationen eine robuste und generalisierte Homographieschätzung über verschiedene Modalitäten hinweg ermöglichen.

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

Structural Action Transformer for 3D Dexterous Manipulation

Die Arbeit stellt den Structural Action Transformer (SAT) vor, ein auf einer strukturbasierten Perspektive beruhendes Imitationslern-Verfahren, das durch die Darstellung von Aktionen als variable, ungeordnete Reihenfolge von Gelenktrajektorien und die Nutzung eines Embodied Joint Codebooks effizientes Cross-Embodiment-Transferlernen für hochgradig dexterous Roboterhände ermöglicht.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

Das Paper stellt ProFound vor, einen spezialisierten Vision-Foundation-Modell für die Prostata-multiparametrische MRT, das durch selbstüberwachtes Lernen auf über 22.000 Volumina trainiert wurde und bei 11 verschiedenen klinischen Aufgaben die Leistung bestehender spezialisierter Modelle übertroffen oder zumindest gleichgezogen hat.

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Das Open-Source-Projekt BLOCK stellt eine zweistufige Pipeline vor, die mithilfe eines Large Multimodal Model (MLLM) und eines feinabgestimmten FLUX.2-Modells in Kombination mit der EvolveLoRA-Methode pixelgenaue Minecraft-Skins aus beliebigen Charakterkonzepten generiert.

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

Das Paper stellt UniRain vor, ein einheitliches Bildentwässerungsframework, das durch eine auf Retrieval-Augmented Generation basierende Datensatz-Distillation und eine multi-objektive, neu gewichtete Optimierung in asymmetrischen Mixture-of-Experts-Architekturen eine robuste Generalisierung über diverse Regenbedingungen hinweg ermöglicht.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

Die vorgestellte Arbeit überwindet die Skalierbarkeitshürden bei der Vorverarbeitung von dichten Ereignisströmen durch eine neuartige selbstüberwachte Methode, die visuelle Grundmodelle mittels eines strukturwahrnehmenden Distillationsverlusts nutzt, um semantisch kohärente und hochauflösende Ereignisrepräsentationen zu erzeugen, die in nachgelagerten Aufgaben deutlich bessere Generalisierung und Transferleistung erzielen.

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

Die Arbeit stellt Dual-Solver vor, einen generalisierten ODE-Löser für Diffusionsmodelle, der durch lernbare Parameter die Vorhersageart, das Integrationsgebiet und die Residuenanpassung optimiert, um bei geringer Anzahl an Funktionenauswertungen die Bildqualität und CLIP-Werte signifikant zu verbessern.

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG

← Zurück Weiter →