cs.CV 件の論文 | Gist.Science

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

この論文は、データ分布間のワッサーシュタイン距離を、データ部分群や入力特徴量などの解釈可能な構成要素に帰属させるための、説明可能 AI に基づく新しい手法を提案し、その有効性を示すものです。

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

本論文は、オンラインデータに存在するノイズ対応の問題に対処するため、ノイズの不確実性をモデル化するキー特徴量セレクタと、負のサンプルの難易度を動的に調整する新しい損失関数を備えた DURA フレームワークを提案し、低・高ノイズ環境の両方においてテキストベースの人物検索性能を向上させることを示しています。

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

本論文は、敵対的学習で事前訓練されたトランスフォーマーが、追加の敵対的学習なしにクリーンなデモンストレーションからのコンテキスト学習を通じて、多様な下流タスクに対して普遍的な敵対的頑健性を発揮しうるという理論的示唆を初めて提示したものである。

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

本論文は、点雲補完における標準的な Chamfer Distance の対称的重み付けの限界を克服し、非対称な重み付け戦略によって大域的な構造完全性を優先する「Flexible-weighted Chamfer Distance（FCD）」を提案し、多様なデータセットとタスクにおいて点の凝集を抑制し、より均一で構造的に完全な点雲生成を実現することを示しています。

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

本論文は、事前の推論データや外部モデルに依存せず、強化学習によってモデル自身が視覚情報を戦略的に活用して推論する「画像で思考する」能力を自然に獲得し、多様なベンチマークで顕著な性能向上と人間に近い視覚推論パターンを実現する DeepEyes を提案するものである。

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

本論文は、ニューラル・タンジェント・カーネル（NTK）の整合性によって誘起される勾配の低ランク構造を利用し、主成分分析（PCA）をクラス平均勾配に適用することで、既存手法よりも一貫した性能を発揮する分布外検出手法「GradPCA」を提案し、その理論的根拠と事前学習済み特徴量の重要性を実証しています。

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

この論文は、大規模視覚言語モデルのマルチモーダル・ジャイルブレイク攻撃に対して、curated な安全データや高コストな画像変換に依存せず、推論時の KV キャッシュを最適化して視覚トークンの重みを動的に再調整する新たな防御手法「DTR」を提案し、既存の防御策を上回る攻撃耐性と汎用タスク性能の実証を示しています。

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

本論文は、オープンソースの DeepSeek-R1 をローカル環境で活用し、視覚情報と推論プロセス（CoT）のフィードバックを統合した自己改善メカニズムを導入することで、トレーニング不要で高品質な 3D パラメトリック CAD モデルを生成する「Seek-CAD」を提案し、SSR 設計パラダイムに基づく新規データセットと広範な実験を通じてその有効性を検証したものである。

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

この論文は、高次元空間における角度テスト問題に対して、ガウス分布に基づく既存手法よりも理論的・実験的に優れ、HNSW アルゴリズムと比較して 2.5〜3 倍のクエリ処理速度を達成する新しい確率的カーネル関数を提案しています。

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

この論文は、3D 点クラウドの多様なデータセットを教師ありラベルなしで統合的に学習し、専門的なエキスパートを動的に選択する「Point-MoE」という混合エキスパート（MoE）アーキテクチャを提案することで、3D 意味セグメンテーションの性能を大幅に向上させる手法を提示しています。

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

本論文は、大規模なフローベースのテキストから画像生成モデルにおける分布一致蒸留（DMD）の収束課題を解決するため、隠れた分布整合（IDA）と内部セグメントガイダンス（ISG）を提案し、SD 3.5 や FLUX.1 dev などの最新モデルを含む広範なモデルで優れた蒸留性能を実現する「SenseFlow」を構築したものである。

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

本論文は、顔生体認証（FAS）の汎用性と解釈性を向上させるため、高品質な視覚言語 CoT データセット「FaceCoT」を初めて構築し、強化学習によるキャプション生成と CEPL 学習戦略を組み合わせることで、既存の最先端手法を上回る性能を実現したことを提案しています。

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

本論文は、認知心理学に基づき動的推論や視点取得など 4 つの主要カテゴリと 50 の細分化されたサブカテゴリを含む包括的な空間推論ベンチマーク「OmniSpatial」を提案し、現在の視覚言語モデルの限界を明らかにするとともに、空間推論能力の向上に向けた 2 つの戦略を提示するものである。

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

本論文は、手話の視覚的・意味的手がかりを音声生成に直接活用する初の統一フレームワーク「UniCUE」と、それを支える大規模な中国語手話データセット「UniCUE-HI」を提案し、既存のテキスト中間段階を介さないことで音声合成の精度を大幅に向上させたことを示しています。

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

この論文は、アフリカ五大獣の野生動物における分布外（OOD）検出を改善するため、事前学習済み特徴量を活用したパラメトリックな Nearest Class Mean 法が既存の OOD 手法を上回る汎化性能を示すことを実証しています。

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

本論文は、大規模マルチモーダルモデルにおける Few-Shot 視覚質問応答タスクにおいて、タスク関連の視覚特徴から蒸留されたソフトプロンプトをメタ学習で適応させることで、従来のインコンテキスト学習やパラメータ効率型微調整を上回る性能を達成する手法を提案しています。

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

本論文は、ロボット操作タスクにおいてフル精度モデルと同等の性能を維持しつつ、モデルメモリを 11 倍、レイテンシを 4.4 倍削減する、すべてのパラメータが 1 ビット（{-1,0,1}）のネイティブな「BitVLA」という新しいビジョン - ランゲージ - アクションモデルを提案し、その実用性を示しています。

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

本論文は、自己教師あり学習により関節物体の幾何学と運動学を連続的に変形可能なガウススプラッティングで統合的にモデル化する「PD²GS」を提案し、その実世界評価用のデータセット「RS-Art」も公開することで、既存手法を上回る精度と連続制御の安定性を実現したことを述べています。

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

本論文は、メタ学習された自己教師あり損失を用いたテスト時適応により、視覚言語モデルの汎化能力と時間的推論を強化し、ゼロショット価値関数として実世界ロボット操作やオフライン強化学習において最先端の性能を達成する「VITA」を提案するものである。

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

本論文は、動画データから直接学習可能なスケーラブルな手法を提案し、ブロック因果拡散トランスフォーマーを用いて文脈に応じた画像編集を実現する「VINCIE」を開発し、既存の手法を上回る性能と多様な応用能力を実証したものです。

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

← 前へ次へ →

cs.CV