Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

本論文は、3D 境界ボックスの 2D 投影キーポイントの回帰と連続 9D 回転表現を導入した単一ステージの YOLO 基盤アーキテクチャ「Yolo-Key-6D」を提案し、LINEMOD ベンチマークで競合する精度を維持しつつリアルタイム処理を可能にするモノキュラー 6D ポーズ推定手法を提示しています。

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

本論文は、マスキングと非マスキングの手法の長所を統合し、多様な実世界シナリオやスタイライズドアバターなどに対応する高忠実度かつ汎用的な口唇同期フレームワーク「UniSync」を提案し、新規ベンチマーク「RealWorld-LipSync」を用いた実験で最先端手法を大幅に凌駕する性能を実証しています。

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

A novel network for classification of cuneiform tablet metadata

本論文は、限られた注釈データと高解像度の点群データという課題に対処するため、点群を段階的に縮小しつつ局所および大域的情報を統合する畳み込み由来のニューラルネットワークを提案し、既存の Point-BERT を上回る楔形文字タブレットのメタデータ分類性能を達成したことを報告しています。

Frederik Hagelskjær2026-03-05🤖 cs.AI

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

本論文は、UAV 環境における視覚的物体追跡の課題を解決するため、トランスフォーマーと拡張カルマンフィルタを統合したモジュール非同期追跡アーキテクチャ(MATA)と、組み込みシステム向けの新規評価プロトコルおよび「正常失敗時間(NT2F)」という新たな指標を提案し、Nvidia Jetson AGX Orin 上での実証実験によりその有効性を示したものである。

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

この論文は、トレーニングデータとテストデータの言語分布が異なる場合でも、推論時に外部の n-gram 言語モデルをトランスフォーマーデコーダに注入することで、追加学習なしに手書き文字認識の性能低下を抑制する手法を提案し、複数のデータセットでその有効性を示したものです。

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

本論文は、従来の切り出し法に代わる単パス距離重み付けメカニズムと完全 GPU 加速アーキテクチャを採用し、大規模なオープンセット意味マッピングにおいて、既存のゼロショット手法を大幅に上回る精度とリアルタイム性を達成する「DISC」を提案するものである。

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

本論文は、RGB 画像と 3D 幾何形状の整合性を双方向マッピングでモデル化し、信頼性ゲートと重み付け再構成による融合戦略を採用することで、メモリーバンクを不要としながらノイズや欠損に強く、単一または多様なモダリティに対応可能な最先端の産業用異常検出フレームワーク「CMDR-IAD」を提案するものです。

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

本論文は、単一画像から構造的な情報を保ちながら多様なテクスチャと色を合成するデータ生成手法と、色情報を分離してクロススケール情報を活用するネットワークを提案することで、未見のモダリティに対するホモグラフィ推定モデルの汎化性能と精度を向上させることを目指しています。

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

Structural Action Transformer for 3D Dexterous Manipulation

本論文は、2 次元観測や時系列中心の表現に依存する既存手法の限界を克服し、関節軌道を順序のない構造的な系列として扱う「構造行動トランスフォーマー(SAT)」を提案することで、多様なロボットアーム間での 3 次元器用な操作技能の効率的な転移とスケーラビリティを実現するものです。

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

本論文は、5,000 人の患者からなる大規模な多施設 mpMRI データを用いて自己教師あり学習で事前学習された前立腺特化型のビジョン基盤モデル「ProFound」を提案し、がん検出や病変局在など 11 の臨床タスクにおいて、既存の専門モデルや医療ビジョン基盤モデルと同等かそれ以上の性能を発揮することを示しています。

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

本論文は、RAG 技術を用いたデータセット蒸留と多目的重み付け最適化を組み合わせた「UniRain」を提案し、雨筋や雨滴、昼夜の条件を問わず多様な実世界の雨景画像に対して高い汎化性能とロバスト性を実現する統合的な画像除雨フレームワークを構築したものである。

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

本論文は、視覚基盤モデル(VFM)の構造的知識を活用した構造認識型蒸留損失を導入することで、イベントストリームデータの自己教師あり事前学習におけるスケーラビリティと表現の質を飛躍的に向上させ、下流タスクでの汎化性能と転移能力を大幅に改善する手法を提案しています。

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs