cs.CV Arbeiten | Gist.Science

FB-CLIP: Fine-Grained Zero-Shot Anomaly Detection with Foreground-Background Disentanglement

Das Paper stellt FB-CLIP vor, ein Framework zur feinkörnigen Zero-Shot-Anomalieerkennung, das durch die Entkopplung von Vordergrund und Hintergrund sowie durch optimierte textuelle Repräsentationen und semantische Konsistenzregularisierung die Lokalisierung von Anomalien in komplexen Szenen verbessert.

Ming Hu, Yongsheng Huo, Mingyu Dou, Jianfu Yin, Peng Zhao, Yao Wang, Cong Hu, Bingliang Hu, Quan Wang2026-03-23🤖 cs.AI

LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment

Das Paper stellt LoD-Loc v3 vor, eine neue Methode zur generalisierten Luftbild-Lokalisierung in dichten Städten, die durch eine neuartige synthetische Datengenerierung für das bisher größte Instanz-Segmentierungs-Datenset und einen Wechsel von der semantischen zur instanzbasierten Silhouettenausrichtung die Generalisierungsfähigkeit und die Genauigkeit in komplexen Szenen erheblich verbessert.

Shuaibang Peng, Juelin Zhu, Xia Li, Kun Yang, Maojun Zhang, Yu Liu, Shen Yan2026-03-23🤖 cs.AI

OrbitNVS: Harnessing Video Diffusion Priors for Novel View Synthesis

OrbitNVS verbessert die Synthese neuer Ansichten, insbesondere bei nur einer Eingabeansicht, indem es ein vortrainiertes Videogenerierungsmodell mit angepassten Kamera-Adaptern, einem Normalenkarten-Branch für geometrische Konsistenz und einer pixelweisen Überwachung für schärfere Details nutzt, um auf Benchmarks wie GSO und OmniObject3D neuartige Zustände zu erzeugen.

Jinglin Liang, Zijian Zhou, Rui Huang, Shuangping Huang, Yichen Gong2026-03-23💻 cs

UniPR: Unified Object-level Real-to-Sim Perception and Reconstruction from a Single Stereo Pair

Das Paper stellt UniPR vor, ein einheitliches, end-to-end Framework, das aus einem einzigen Stereobildpaar Objekte parallel erkennt und rekonstruiert, um die Ineffizienz und kumulativen Fehler bestehender modularer Pipelines zu überwinden und gleichzeitig die Skalierung durch eine neue Pose-bewusste Formdarstellung sowie den großen LVS6D-Datensatz zu ermöglichen.

Chuanrui Zhang, Yingshuang Zou, ZhengXian Wu, Yonggen Ling, Yuxiao Yang, Ziwei Wang2026-03-23💻 cs

Disentangle-then-Align: Non-Iterative Hybrid Multimodal Image Registration via Cross-Scale Feature Disentanglement

Die Arbeit stellt HRNet vor, ein nicht-iteratives hybrides Multimodal-Registrierungsnetzwerk, das durch Cross-Scale-Entflechtung und adaptive Projektion modalspezifische Störungen unterdrückt und gleichzeitig globale starre sowie lokale nicht-starre Transformationen in einem einzigen Schritt präzise schätzt.

Chunlei Zhang, Jiahao Xia, Yun Xiao, Bo Jiang, Jian Zhang2026-03-23💻 cs

IUP-Pose: Decoupled Iterative Uncertainty Propagation for Real-time Relative Pose Regression via Implicit Dense Alignment v1

IUP-Pose ist ein geometriegetriebener, decoupled iterativer Ansatz mit impliziter dichter Ausrichtung und einem Multi-Head Bi-Cross-Attention-Modul, der eine Echtzeit-Relativpose-Regressionslösung mit end-to-end Differenzierbarkeit, hoher Genauigkeit und effizienter Ressourcennutzung ermöglicht.

Jun Wang, Xiaoyan Huang2026-03-23💻 cs

Dual Prompt-Driven Feature Encoding for Nighttime UAV Tracking

Dieses Paper stellt DPTracker vor, einen Dual-Prompt-Tracker, der durch pyramidenförmige Beleuchtungs- und dynamische Blickwinkel-Prompts robuste Merkmalskodierung für die UAV-Verfolgung unter schwierigen Nachtbedingungen ermöglicht.

Yiheng Wang, Changhong Fu, Liangliang Yao, Haobo Zuo, Zijie Zhang2026-03-23🤖 cs.AI

UniBioTransfer: A Unified Framework for Multiple Biometrics Transfer

Das Papier stellt UniBioTransfer vor, ein einheitliches Framework, das erstmals verschiedene Biometrie-Transfer-Aufgaben wie Gesichts-, Haar- und Kopfübertragung in einem einzigen Modell vereint, indem es durch eine spezielle Datenkonstruktionsstrategie und ein BioMoE-Modell mit zweistufigem Training Datenknappheit und Aufgabenkonflikte überwindet.

Caiyi Sun, Yujing Sun, Xiangyu Li, Yuhang Zheng, Yiming Ren, Jiamin Wang, Yuexin Ma, Siu-Ming Yiu2026-03-23💻 cs

OmniDiT: Extending Diffusion Transformer to Omni-VTON Framework

Das Paper stellt OmniDiT vor, ein einheitliches Diffusion-Transformer-Framework für virtuelle An- und Ausversuche, das durch eine selbstentwickelte Datengenerierungspipeline, Shifted Window Attention für lineare Komplexität und adaptive Positionskodierung die Detailtreue und Effizienz bei komplexen Szenen verbessert.

Weixuan Zeng, Pengcheng Wei, Huaiqing Wang, Boheng Zhang, Jia Sun, Dewen Fan, Lin HE, Long Chen, Qianqian Gan, Fan Yang, Tingting Gao2026-03-23🤖 cs.AI

GravCal: Single-Image Calibration of IMU Gravity Priors with Per-Sample Confidence

Das Paper stellt GravCal vor, ein feedforward-Modell, das mithilfe eines einzelnen RGB-Bildes und eines verrauschten IMU-Gravitationspriors die Gravitationsrichtung korrigiert und eine per-Sample-Konfidenz schätzt, was durch ein neues Datenset und signifikante Fehlerreduktionen gegenüber reinen Inertialdaten validiert wird.

Haichao Zhu, Qian Zhang2026-03-23💻 cs

← Zurück Weiter →