cs.CV 件の論文 | Gist.Science

Motion-Aware Animatable Gaussian Avatars Deblurring

本論文は、人間の運動速度や強度によるブレを考慮した物理モデルと 3D 運動モデルを統合し、多視点のぼやけた動画から直接鮮明な 3D 人間アバターを再構築する新たな手法を提案しています。

Muyao Niu, Yifan Zhan, Qingtian Zhu + 5 more2026-03-06💻 cs

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation

この論文は、事前学習済み動画拡散モデルをテスト時に微調整し、最初のフレームでの可視領域マスクのみを入力として用いることで、物体が完全に隠蔽されている場合でもゼロショットで物体の可視・非可視領域を推定する新しいパイプライン「Track Anything Behind Everything (TABE)」を提案しています。

Finlay G. C. Hudson, William A. P. Smith2026-03-06💻 cs

Learnable Sparsity for Vision Generative Models

本論文は、大規模拡散モデルの再学習を必要とせず、学習可能なスパース化マスクと時間ステップ勾配チェックポイント法を用いて、メモリ効率を維持しつつパラメータを最大 20% 削減できるモデル非依存の構造化剪定フレームワークを提案するものである。

Yang Zhang, Er Jin, Wenzhong Liang + 5 more2026-03-06💻 cs

Flatness Guided Test-Time Adaptation for Vision-Language Models

本論文は、トレーニング時の平坦な最小値とテスト時の損失平坦領域の整合性を活用する「Flatness-Guided Adaptation (FGA)」フレームワークを提案し、テスト時の計算コストを抑えつつ視覚言語モデルの分布シフトへの適応性能を大幅に向上させることを示しています。

Aodi Li, Liansheng Zhuang, Xiao Long + 2 more2026-03-06💻 cs

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

この論文は、2D 視覚ダイナミクスだけでは不十分な深度方向の移動を伴う操作タスクに対応するため、自己教師あり学習を通じて 3D 世界モデルと方策学習を統合し、推論速度を犠牲にすることなく操作性能を大幅に向上させる「3D 先見性」を備えた新しい操作フレームワークを提案しています。

Yuxin He, Ruihao Zhang, Xianzu Wu + 3 more2026-03-06💻 cs

MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields

本論文は、医療画像の連続的な性質を捉え大規模データセットへの拡張を可能にする統合フレームワーク「MedFuncta」を提案し、メタ学習と疎な教師信号を用いた効率的な学習戦略、SIREN 活性化関数の改良、および大規模医療神経場データセット「MedNF」の公開を通じて、医療分野における神経場（Neural Fields）の学習と応用を革新するものです。

Paul Friedrich, Florentin Bieder, Julian McGinnis + 3 more2026-03-06💻 cs

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond

この論文は、複数の視点と人物にまたがる全身のヒトポーズ推定をミリ秒単位で高速かつ汎用的に実現する新しいアルゴリズム「RapidPoseTriangulation」を提案し、そのコードとデータを公開しています。

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

本論文は、ノイズの多いゴーストイメージングの再構成において、教師なし学習を用いて参照データなしで高品質な結果と強力なノイズ低減を実現する新しい自己教師あり深層学習手法「Noise2Ghost」を提案し、低光量環境下での生体試料や電池などの応用を可能にする数学的枠組みと実証結果を示すものである。

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Collaborative Learning of Local 3D Occupancy Prediction and Versatile Global Occupancy Mapping

本論文は、過去の走行データから得られるグローバルな占有マップを事前知識として活用し、局所的な 3D 占有予測の精度向上と大規模なグローバルマップの継続的更新を同時に実現するプラグアンドプレイ型フレームワーク「LMPOcc」を提案する。

Shanshuai Yuan, Julong Wei, Muer Tie + 3 more2026-03-06💻 cs

PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing

本論文は、大規模言語モデル（LLM）と rPPG 固有のコンポーネントを協調最適化する「PhysLLM」フレームワークを提案し、テキスト原型ガイダンスや双領域定常アルゴリズムを通じて照明変化やモーションアーティファクトに頑健な遠隔生理信号計測を実現し、複数のベンチマークデータセットで最先端の性能を達成したことを示しています。

Yiping Xie, Bo Zhao, Mingtong Dai + 6 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

本論文は、高忠実度かつ長期的な一貫性を持つリアクティブダンス生成を実現するため、細やかな空間表現を可能にする階層的有限スカラー量子化（HFSQ）と、効率的な長系列生成を可能にするブロック単位局所コンテキスト（BLC）戦略を備えた拡散モデル「ReactDance」を提案するものです。

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

本論文は、カメラとレーダーの融合を用いた鳥瞰図セグメンテーションにおいて、段階的な残差自己回帰学習と双経路ボクセル特徴符号化を組み合わせることで、高精度かつリアルタイムな環境認識を実現する「RESAR-BEV」という説明可能なフレームワークを提案し、nuScenes ベンチマークで最先端の性能を達成したことを報告しています。

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

本論文は、超解像技術と双方向の頭部・視線相互注意メカニズム（DHECA）を導入し、Gaze360 データセットの注釈誤りを修正することで、制約のない環境における視線推定の精度と汎用性を大幅に向上させた DHECA-SuperGaze を提案しています。

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

本論文は、外部データやモデルに依存せず、アテンションベースのオブジェクトマスクとオブジェクト重み付き SimPO 損失を活用してオブジェクトレベルのテキスト - 画像整合性を強化し、物体の幻覚を削減する自己改善型ファインチューニング手法「OSPO」を提案し、その有効性を示したものである。

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

本論文は、事前学習された画像キャプションモデルによる埋め込みの初期化、潜在空間における逆方向の微調整、および埋め込みからテキストへの変換を組み合わせた「EDITOR」と呼ばれる手法を提案し、既存の手法を上回る画像類似性、テキスト整合性、解釈可能性、汎用性を達成するとともに、クロスコンセプト合成やセグメンテーションなど多様な応用を実現するものです。

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

本論文は、双曲空間の階層的性質を活用してパノラマ画像と視点画像の間の視覚的場所認識を効率的かつ高精度に行うための新しいフレームワーク「HypeVPR」を提案し、検索速度の向上とデータベースストレージの削減を実現しています。

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

フランス国立地理林業情報局（IGN）は、多様な地球観測データと 20cm 解像度の注釈を統合した大規模なマルチモーダルデータセット「FLAIR-HUB」を公開し、土地被覆および作物マッピングにおける多モーダル融合と深層学習モデルの性能を評価しました。

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

非エルミート結晶のエネルギー準位から自動抽出された 1160 万枚の空間多重グラフを含む大規模データセット「HSG-12M」を提案し、既存のグラフベンチマークが見過ごしていた幾何学的情報の重要性を浮き彫りにするとともに、物性物理学におけるデータ駆動型発見と幾何学意識型グラフ学習の新たな基盤を確立しました。

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

この論文は、複数の人物や物体が同一の動画内で相互作用するシナリオに対応するため、各アイデンティティの空間的・時間的領域にテキスト、画像、音声などのマルチモーダル条件を厳密に紐付ける新しいフレームワーク「InterActHuman」を提案し、高品質な多概念人間アニメーション生成を実現するものです。

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

本論文は、大規模視覚言語モデルの性能向上を目的として、手動注釈なしで損失に基づいて最適な視覚プロンプトを自動的に検索・選択する軽量フレームワーク「AutoV」を提案し、多様なタスクで顕著な性能向上を実現したことを報告しています。

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

← 前へ次へ →