cs.CV 件の論文 | Gist.Science

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

本論文は、対照損失における正規化項の推定を凸解析と変分解析を用いて再定式化し、補助ネットワークを介して効率的に最適化する「NeuCLIP」という新たなフレームワークを提案し、大規模な CLIP 学習において既存手法を上回る性能を実現したことを示しています。

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

本論文は、ヒトポーズ予測における再現性の問題と統一パイプラインを提示し、音声モデルの転用による性能向上、および姿勢推定ノイズに対するロバスト性評価と教師なし微調整による回復可能性を明らかにするものです。

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

本論文は、RGB 画像と物理ベースレンダリング（PBR）マッピングを統合した新しい表現を用いた生成基盤モデル「MatPedia」を提案し、大規模な RGB 画像データから学習した視覚的知識を活用しながら、単一アーキテクチャで高品質かつ多様な PBR 素材の生成や分解を可能にするものです。

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

本論文は、動画理解の課題に対処するため、複数のエージェントが協調して動的にツール呼び出しの方針を生成・実行・更新する「協調方針計画（CPP）」と多エージェント強化学習を組み合わせた新システム「VideoChat-M1」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

本論文は、テキスト、画像、照度、環境マップなど多様な照明表現を対照学習により統合された潜在空間「UniLight」に変換することで、照明の理解と表現の課題を解決し、検索や生成、合成画像の照明制御など多様なタスクにおけるモダリティ間の柔軟な転送を可能にする手法を提案しています。

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

潜在拡散モデルに基づく逆問題ソルバーの不安定性を、学習された逆拡散ダイナミクスとの乖離を測定整合性のランジュバン更新で補正することで解決し、より安定した推論を実現する「測定整合性ランジュバン補正器（MCLC）」を提案する。

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

本論文は、低線量全身 PET 画像のノイズ除去において、ウェーブレット変換に基づく構造的な事前知識を凍結された拡散モデルに注入する「WCC-Net」と呼ばれる 3 次元フレームワークを提案し、既存の手法を上回る画質と解剖学的整合性の達成を実証したものである。

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

本論文は、直交する 2 次元投影画像から推定された 3 次元マスクを用いて頚椎の関心領域を抽出し、2.5 次元の CNN-Transformer Ensemble モデルで骨折を識別する、次元削減と高い診断精度を両立する新しい自動パイプラインを提案するものである。

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

本論文は、医療画像分野における強化学微調整（RFT）の課題を解決するため、事前知識の注入や知覚駆動の方針改善などの戦略を導入して知覚と推論を強化するフレームワーク「VRFT-Aug」を提案し、複数のデータセットで既存手法を上回る性能を実証したものである。

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

本論文は、生体認証用歩行圧力データセット「StepUP-P150」を基に開催された初の国際コンペティションの概要、23 チームの参加状況、最優秀チーム（Saeid_UCC）が達成した 10.77% の等誤り率（EER）の結果、および履物変化への汎化という残された課題について報告しています。

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

既存の動画セグメンテーションモデルが抱える複雑な追跡モジュールの必要性を排除し、軽量なクエリ伝播と融合戦略を導入したエンコーダ専用の ViT モデル「VidEoMT」を提案することで、高精度かつ従来比 5〜10 倍の高速処理を実現した研究です。

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

この論文は、複数の有害カテゴリ間の衝突を解決し、生成中の状態に合わせた安全方向を動的に適用するトレーニング不要のフレームワーク「CASG」を提案し、既存手法よりも有害生成率を最大 15.4% 削減する性能を実証しています。

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor は、単一画像の基礎モデルとクロスビュー注意機構を組み合わせて一貫した法線ベクトルを推定し、これを逆レンダリング最適化の事前知識として活用することで、高密度なカメラアレイや高コストな計算を必要とせず、数秒で写真測量に匹敵する高忠実度な 3D 頭部形状を復元するハイブリッド手法です。

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

本論文は、バッチ内の限られた比較に依存する既存の知識蒸留手法の不安定性を克服するため、モメンタム更新メモリを用いてバッチを超えた情報を集約し、ゲノムと組織病理の勾配を分離することで、組織病理画像のみによるがん診断において最先端の性能と汎用性を達成する「Momentum Memory Knowledge Distillation (MoMKD)」を提案するものである。

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

本論文は、視覚的場所認識（VPR）システムが環境の特定領域でユーザーが定義した性能要件を満たすことを保証するため、複数の参照経路のマッチングパターンを分析して最適な地図密度を自動的に選択する手法を提案し、その有効性を複数のベンチマークで実証したものである。

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

本論文は、視覚言語モデルにおける「空間的クレジットの崩壊」がハルシネーションの一因であることを特定し、モデル重みの変更なしに推論時に視覚的文脈を再分配する軽量かつ高速な手法「Spatial Credit Redistribution (SCR)」を提案し、複数のベンチマークでハルシネーションを大幅に削減しつつ生成品質を維持する効果を実証しています。

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

本論文は、多視点ステレオ、多視点フォトメトリックステレオ、偏光多視点形状復元といった多様なニューラル 3 次元再構成手法を包括的に評価するための、25 個の物体と 8,500 枚の画像からなる実世界データセット「EvalMVX」を提案し、既存手法の性能比較と課題の特定を行った研究です。

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

本論文は、不均衡データ、背景ノイズ、ドメインシフトといった課題に対処するため、Focal Loss、軽量アテンションゲート、アライメントモジュールの 3 つのモジュール的改良を MambaBDA 枠組みに導入し、既存災害における精度向上だけでなく、未見の災害に対する汎化性能を最大 27% 向上させることを実証しています。

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

本論文は、知識蒸留における温度パラメータの選択がオプティマイザや教師モデルの事前学習・微調整などの訓練要素と密接に関連していることを示す統一的な研究を通じて、実務家が最適な温度値を決定するための指針を提供するものである。

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

画像とテキストの表現学習において、既存手法が抱えるモダリティ間の隔たりを解消し、推論時の効率を維持したまま分類や検索などのタスクで高い性能を発揮する新たなフレームワーク「ITO」を提案し、その有効性を多角的な実験で実証した論文です。

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

← 前へ次へ →