cs.CV 件の論文 | Gist.Science

Toward Early Quality Assessment of Text-to-Image Diffusion Models

本論文は、拡散モデルやフローマッチングモデルの生成過程における早期の中間活性化値から最終的な画像品質を予測する「Probe-Select」というモジュールを提案し、生成コストを 60% 以上削減しながら高品質な画像を選択的に生成することを可能にすると述べています。

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

本論文は、従来の 3D ガウススプラッティングの画像形成モデルを非指数関数的な放射伝達に一般化し、より少ないオーバードローで 4 倍の高速化を実現する新しいバリエーションを提案するものである。

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

本論文は、複雑なクエリに対して構造化された推論（Chain-of-Thought）を生成し、それを圧縮して埋め込み表現に統合する「TRACE」という新しいユニバーサルマルチモーダル検索フレームワークを提案し、M-BEIR ベンチマークで最先端の性能を達成するとともに、推論の必要性に応じた自動的な経路選択と優れたゼロショット転移能力を実現したことを示しています。

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

本論文は、CLIP モデルの汎化能力を維持しつつ、画像パッチの特性に基づいて動的に専門家の LoRA にルーティングし、直交特徴分離と ETF 損失によって冗長性を抑制する MoECLIP を提案することで、ゼロショット異常検出の性能を大幅に向上させることを示しています。

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

本論文は、U-Net のスキップ接続におけるノイズや無関係な特徴量の伝播を解決するため、デコーダの文脈に基づいて特徴量選択を明示的にスパース化し、 $\ell_1$ 近接演算子を用いた軟しきい値ゲートとチャネルゲーティングを導入した「ProSMA-UNet」を提案し、特に 3D セグメンテーションタスクで大幅な性能向上を実現したことを報告しています。

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

本論文は、オープンワールド設定における微細な画像分類において、推論型マルチモーダルモデルが汎用的な予測に陥る問題を解決するため、正解性と具体性のバランスを最適化する新しい強化学習フレームワーク「SpeciaRL」を提案し、その有効性を示したものである。

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

本論文は、人工知能の進展により革新された深層学習を用いたスケッチベースの 3D モデリング（DS-3DM）の最新動向を、人間中心の創造プロセスを支援する新たな設計空間「MORPHEUS」の枠組みを用いて包括的に調査し、今後の学際的研究の機会と課題を明らかにする。

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

この論文は、Google Mediapipe と深層学習モデルを用いた実験を通じて、中国語からアラビア語、ギリシャ語からフランダース語への象徴的な手話記号の転移学習が、それぞれ 7.02% および 1.07% の認識精度向上をもたらすことを示しています。

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

本論文は、深層学習における新しい残差結合手法である多様体制約ハイパー結合（mHC）を hyperspectral image（HSI）分類に特化して改良し、クラスタリング誘導型 Mamba モジュール、物理的スペクトル知識に基づく並列ストリーム、および可解釈性を高める残差行列の実装を組み合わせた「mHC-HSI」を提案し、既存手法を上回る精度と説明可能性の実証を示すものである。

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

この論文は、医療マルチモーダル推論における精度のみを評価する手法の限界を指摘し、反事実的評価フレームワークを用いて、視覚的依存度を無視した学習がモデルのハルシネーションを助長し、視覚的根拠を損なうことを実証している。

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

本論文は、低遅延推論、自律的な応答判断、リアルタイム制約下でのコンテンツ制御という課題を解決し、人間のような能動的な AI コンパニオンを実現する「Proact-VL」フレームワークと、その評価のための大規模ベンチマーク「Live Gaming Benchmark」を提案するものである。

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

本論文は、オンライン HD 地図構築においてローカライゼーション誤差がラベル品質に与える影響を分析し、位置誤差よりも角度誤差が遠距離のラベル歪みに与える影響が大きいこと、およびノイズの増加に対してモデル性能が非線形的に低下することを明らかにした。

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

この論文は、既存のインタラクティブな世界モデルが抱える 3 次元の一貫性や空間的記憶の欠如を解決するため、潜在空間における 3 次元シーンの進化をシミュレートすることで、持続的な空間記憶と幾何学的整合性を実現する新しい世界モデル「PERSIST」を提案し、長期的な安定性や 3 次元空間での環境編集といった新たな能力を実証したものである。

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

本論文は、大規模な疑似教師あり事前学習、シミュレーションに基づく教師あり微調整、そして強化学習という 3 段階のトレーニング手法を採用し、動画拡散モデルから物理的に整合性の高い 4 次元世界表現を学習する「Phys4D」を提案し、従来の外観中心のモデルを超えた細かな物理的整合性と生成性能の実現を示しています。

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

本研究は、Sentinel-1、RCM、AMSR2 のマルチソースデータを融合し、地理的加重弱教師あり学習とベイズ的拡張を備えた高解像度トランスフォーマーモデルを提案することで、200 メートル解像度のパン・アーктиック海氷濃度マッピングとその不確実性推定を高精度に実現する手法を開発した。

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

← 前へ次へ →

cs.CV