cs.CV 件の論文 | Gist.Science

Ref-DGS: Reflective Dual Gaussian Splatting

本論文は、近距離の鏡面反射を明示的なレイトレーシングなしに効率的にモデル化し、高速な学習と最先端の性能を両立させる「反射双対ガウススプラッティング（Ref-DGS）」という新しいフレームワークを提案するものです。

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

本論文は、事前の厳密な位置合わせを必要とせず、視覚的事前知識を活用して赤外線画像と可視光画像の融合プロセス自体でミスマッチを直接処理し、高精度かつ効率的な融合を実現する汎用的な手法「FusionRegister」を提案するものである。

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

本論文は、静的および動的な環境要素の両方に対する不確実性を統合的に推定・活用し、エンドツーエンド運転の信頼性と性能を大幅に向上させる軽量な統一フレームワーク「UniUncer」を提案するものです。

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

本論文は、ストリーミング 3D 推論における KV キャッシュの無制限な増大を解決するため、フレーム単位で情報を凝縮し固定容量のメモリで管理する「FrameVGGT」を提案し、長尺ストリームにおいても安定した幾何学的推論を可能にすることを示しています。

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

本論文は、人間のデモンストレーションから自動的に収集したデータを用いて、物体の接触領域と接触姿勢を指令に基づいて統合的に予測する「RoboPCA」というフレームワークを提案し、ロボット把持タスクの成功率と汎化性能を向上させることを示しています。

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

本論文は、動画ストリーミングの帯域幅制限下において、圧縮ドメイン情報（動きベクトル、残差マップ、フレームタイプ）を活用して計算効率と画質のバランスを最適化し、既存の最先端手法よりも高速かつ高精度なオンライン動画超解像を実現する「CDA-VSR」を提案するものである。

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

本論文は、視覚ベースのモーションキャプチャにおけるオクルージョンやノイズの問題を解決するため、部分的な高品質データを用いて不完全なモーションを再構築する拡散モデル「MMDM」を提案し、効率的な運動学アテンション集約（KAA）機構を通じて文脈適応型の運動事前知識を学習することで、モーションの補完や調整など多様なタスクにおいて高い性能を実現する手法を述べています。

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

この論文は、非微分可能な報酬信号（人間の評価やオブジェクト数など）を少数ステップの拡散モデルに統合するための新しい強化学習パラダイム「TDM-R1」を提案し、その有効性をテキスト描画や視覚品質、嗜好アライメントなど多岐にわたる実験で実証したものです。

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

本論文は、物体間の粗い関係表現の限界を克服し、物体の部品レベルの幾何学的相互作用を明示的にモデル化するフレームワーク「PARSE」を提案し、これにより物理的に整合性の取れた 3D 室内シーンの生成と空間推論の精度向上を実現したことを示しています。

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

本論文は、固定視点動画における長期参照と再識別の課題に対し、静的背景構造から導出したアンカーバンクを永続的な意味記憶として活用し、被写体の不在時や再登場時の追跡を可能にする「AR2-4FV」を提案し、再捕捉率の大幅な向上と遅延の削減を実現したものである。

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

本論文は、対照的なクリーン・ノイズデータの不足やトレーサーの急速な動態といった課題を克服し、教師なし拡散モデル「DECADE」を用いて、Rb-82 心臓 PET 画像の時間的一貫性を保ちながらノイズを低減し、定量的な精度を維持する手法を提案しています。

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

本論文は、医療画像の多様な品質劣化条件下におけるマルチモーダル大規模言語モデル（MLLM）の性能と信頼性を包括的に評価するための新しいベンチマーク「MedQ-Deg」を提案し、モデルが劣化に伴い精度が低下しても過剰な自信を示す「AI ダニング＝クルーガー効果」など重要な知見を明らかにしたものです。

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

この論文は、複数の衛星から収集されたリモートセンシング画像のデータ不均一性という課題に対処するため、幾何学的知識を統合したフェデレーティング・デュアル知識蒸留フレームワーク「GK-FedDKD」を提案し、EuroSAT などのデータセットにおいて既存の最先端手法を大幅に上回る性能を達成したことを示しています。

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

この論文は、従来の画素ベースのアプローチの限界を克服し、キャンバス上の筆触を模倣する「筆触ドメイン」でのスタイル転送手法を提案することで、より自然で視覚的に優れた芸術的表現を実現することを目的としています。

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Vision-Language Models の順序数理解における一般化限界を診断するため、3 万 9 千の質問応答対と構造化された推論トレース評価を提供する新しいベンチマーク「OrdinalBench」が提案され、既存のモデルが大きな順序数や複雑な経路において性能が著しく低下することが示されました。

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

← 前へ次へ →

cs.CV