cs.CV 件の論文 | Gist.Science

Bridging Human Evaluation to Infrared and Visible Image Fusion

この論文は、赤外線画像と可視光画像の融合において人間の視覚的嗜好に合致する結果を得るため、大規模な人間評価データセットと報酬モデルを構築し、Group Relative Policy Optimization を用いて融合ネットワークを微調整する新しいフレームワークを提案しています。

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

本論文は、3D 境界ボックスの 2D 投影キーポイントの回帰と連続 9D 回転表現を導入した単一ステージの YOLO 基盤アーキテクチャ「Yolo-Key-6D」を提案し、LINEMOD ベンチマークで競合する精度を維持しつつリアルタイム処理を可能にするモノキュラー 6D ポーズ推定手法を提示しています。

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

本論文は、マスキングと非マスキングの手法の長所を統合し、多様な実世界シナリオやスタイライズドアバターなどに対応する高忠実度かつ汎用的な口唇同期フレームワーク「UniSync」を提案し、新規ベンチマーク「RealWorld-LipSync」を用いた実験で最先端手法を大幅に凌駕する性能を実証しています。

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

A novel network for classification of cuneiform tablet metadata

本論文は、限られた注釈データと高解像度の点群データという課題に対処するため、点群を段階的に縮小しつつ局所および大域的情報を統合する畳み込み由来のニューラルネットワークを提案し、既存の Point-BERT を上回る楔形文字タブレットのメタデータ分類性能を達成したことを報告しています。

Frederik Hagelskjær2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

本論文は、分布外（OOD）検出と分類失敗予測を統合的に評価する新たなフレームワークと指標（DS-F1、DS-AURC）を提案し、信頼性の高い分類器 SURE+ を開発することで、実世界における機械学習モデルの信頼性向上に貢献しています。

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

本論文は、UAV 環境における視覚的物体追跡の課題を解決するため、トランスフォーマーと拡張カルマンフィルタを統合したモジュール非同期追跡アーキテクチャ（MATA）と、組み込みシステム向けの新規評価プロトコルおよび「正常失敗時間（NT2F）」という新たな指標を提案し、Nvidia Jetson AGX Orin 上での実証実験によりその有効性を示したものである。

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

この論文は、微細な美的差異を評価するための大規模データベース「FGAesthetics」と、相対的順位から識別的な美的スコアを学習する新しいフレームワーク「FGAesQ」を提案し、微細な画像美学評価の課題を解決するものです。

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

この論文は、トレーニングデータとテストデータの言語分布が異なる場合でも、推論時に外部の n-gram 言語モデルをトランスフォーマーデコーダに注入することで、追加学習なしに手書き文字認識の性能低下を抑制する手法を提案し、複数のデータセットでその有効性を示したものです。

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

本論文は、従来の切り出し法に代わる単パス距離重み付けメカニズムと完全 GPU 加速アーキテクチャを採用し、大規模なオープンセット意味マッピングにおいて、既存のゼロショット手法を大幅に上回る精度とリアルタイム性を達成する「DISC」を提案するものである。

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

本論文は、RGB 画像と 3D 幾何形状の整合性を双方向マッピングでモデル化し、信頼性ゲートと重み付け再構成による融合戦略を採用することで、メモリーバンクを不要としながらノイズや欠損に強く、単一または多様なモダリティに対応可能な最先端の産業用異常検出フレームワーク「CMDR-IAD」を提案するものです。

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

本研究は、深層学習（特に DenseNet121）を用いて高 b 値（1500 s/mm2）の乳がん拡散強調画像における高輝度および低輝度のアーティファクトをスライス単位で検出・評価する手法を提案し、高い診断精度と局在化能力を実証したものである。

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

この論文は、既存の視覚理解タスクを超えて見えない空間的因果関係を推論する新たな課題「Spatial Causal Prediction (SCP)」と、その評価のための大規模ベンチマーク「SCP-Bench」を提案し、最先端モデルと人間の性能差を明らかにするとともに、空間的因果知能の向上に向けた戦略を議論しています。

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

この論文は、屋内環境における衝突を回避しながら視覚情報のみで目標地点へ到達するタスクに特化した、大規模で多様なシミュレーション環境と評価指標を提供する新しいベンチマーク「RVN-Bench」を提案し、安全かつ堅牢な視覚ナビゲーションの標準化に貢献するものである。

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

Towards Generalized Multimodal Homography Estimation

本論文は、単一画像から構造的な情報を保ちながら多様なテクスチャと色を合成するデータ生成手法と、色情報を分離してクロススケール情報を活用するネットワークを提案することで、未見のモダリティに対するホモグラフィ推定モデルの汎化性能と精度を向上させることを目指しています。

Jinkun You, Jiaxin Cheng, Jie Zhang + 1 more2026-03-05🤖 cs.AI

Structural Action Transformer for 3D Dexterous Manipulation

本論文は、2 次元観測や時系列中心の表現に依存する既存手法の限界を克服し、関節軌道を順序のない構造的な系列として扱う「構造行動トランスフォーマー（SAT）」を提案することで、多様なロボットアーム間での 3 次元器用な操作技能の効率的な転移とスケーラビリティを実現するものです。

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

ProFound: A moderate-sized vision foundation model for multi-task prostate imaging

本論文は、5,000 人の患者からなる大規模な多施設 mpMRI データを用いて自己教師あり学習で事前学習された前立腺特化型のビジョン基盤モデル「ProFound」を提案し、がん検出や病変局在など 11 の臨床タスクにおいて、既存の専門モデルや医療ビジョン基盤モデルと同等かそれ以上の性能を発揮することを示しています。

Yipei Wang, Yinsong Xu, Weixi Yi + 11 more2026-03-05💻 cs

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

本論文は、大規模マルチモーダルモデルによる 3D プレビュー合成と、EvolveLoRA による段階的学習を組み合わせたオープンソースの 2 段階パイプライン「BLOCK」を提案し、任意のキャラクター概念からピクセル単位の正確なマインクラフトスキンを生成する手法を提示している。

Hengquan Guo2026-03-05🤖 cs.AI

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

本論文は、RAG 技術を用いたデータセット蒸留と多目的重み付け最適化を組み合わせた「UniRain」を提案し、雨筋や雨滴、昼夜の条件を問わず多様な実世界の雨景画像に対して高い汎化性能とロバスト性を実現する統合的な画像除雨フレームワークを構築したものである。

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs

Scaling Dense Event-Stream Pretraining from Visual Foundation Models

本論文は、視覚基盤モデル（VFM）の構造的知識を活用した構造認識型蒸留損失を導入することで、イベントストリームデータの自己教師あり事前学習におけるスケーラビリティと表現の質を飛躍的に向上させ、下流タスクでの汎化性能と転移能力を大幅に改善する手法を提案しています。

Zhiwen Chen, Junhui Hou, Zhiyu Zhu + 2 more2026-03-05💻 cs

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

この論文は、学習可能なパラメータを用いて予測タイプや積分領域を柔軟に調整する「Dual-Solver」を提案し、少数の関数評価（NFE）で拡散モデルのサンプリング効率と生成品質を向上させる手法を提示しています。

Soochul Park, Yeon Ju Lee2026-03-05🤖 cs.LG

← 前へ次へ →