cs.CV 件の論文 | Gist.Science

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

この論文は、従来の空間と時間の分離表現や明示的なフレーム補正に依存せず、連続的な 3 次元フーリエ場（VFF）を用いて任意の空間・時間位置での高品質な動画超解像を実現し、複数のベンチマークで最先端の性能と計算効率を達成した手法を提案しています。

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

本論文は、第一人称視点の観測ノイズに耐性を持つ軌道予測を実現するため、実世界ノイズを含む履歴とクリーンな未来軌道を対応させた初のベンチマーク「EgoTraj-Bench」を提案し、歴史的観測のノイズ除去と将来の運動予測を同時に行う双フローモデル「BiFlow」を開発して最先端の性能と堅牢性を示したものです。

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

この論文は、薄い雲の特徴の欠如や訓練サンプルの質の問題を克服するため、スペクトル特徴と多スケール深層学習ネットワークを組み合わせる弱教師あり雲検出手法「SpecMCD」を提案し、GF-1 衛星画像を用いた実験で既存手法を大幅に上回る精度を達成したことを示しています。

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

本論文は、静的な教師あり学習の限界を克服し、GRPO（群相対方策最適化）と報酬モデルを活用して物理法則に基づくアーティファクトを検出・説明する、強化学習に基づく最先端の AI 生成動画検出システム「VidGuard-R1」を提案するものである。

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

脊椎疾患の AI 診断におけるレベル認識や多モーダル推論の課題を解決するため、臨床医と共同で脊椎専門の大規模データセット「SpineMed-450k」と評価基準「SpineBench」を構築し、これらを用いて微細な脊椎レベルの推論能力を飛躍的に向上させたことを示した論文です。

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

本論文は、スポーツ中継におけるスポンサーロゴの回転や傾きに対応した高精度な検出と可視性分析を実現する「ExposureEngine」というシステムと、それを訓練・評価するための新しいデータセットを提案し、自然言語によるレポート生成機能も備えた包括的なソリューションを提示しています。

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

IBM は、Sentinel-2 衛星データで事前学習され、従来のコーデックを凌駕する高圧縮率とゼロショットの雲除去機能を実現する、地球観測データ専用のニューラルコーデック「TerraCodec」を提案しました。

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

本論文は、3D 幾何学の事前知識や明示的な姿勢パラメータ化を一切用いずに、入力と出力の拡張とペアごとの姿勢推定を組み合わせることで、カメラ姿勢とシーン内容を分離し、異なる 3D シーン間での姿勢表現の転移を可能にする初の自己教師あり新規視点合成モデル「XFactor」を提案し、その転移性を新たな指標で実証したものである。

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

本論文は、事前学習済みのテキスト - 動画生成モデルと 3D 再構成ネットワークをモデル結合（stitching）と報酬微調整により統合する汎用フレームワーク「VIST3A」を提案し、従来のガウススプラット出力モデルを大幅に上回る高品質なテキスト -3D 生成を実現するものである。

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

本論文は、脳腫瘍のセグメンタリングにおいて、空間充填曲線やゲート融合モジュールを活用して計算効率とロバスト性を大幅に向上させた双解像度双方向 Mamba モデル「DRBD-Mamba」を提案し、BraTS2023 における厳密な評価を通じて既存の最先端手法を上回る精度と 15 倍の効率化を実現したことを示しています。

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

本論文は、2D 中心の事前学習に起因する 3D 理解の不足と冗長な情報による推論失敗という課題を解決するため、専門モデルからの 3D 知覚結果を最小かつ十分な情報集合（MSS）として選択的に抽出・洗練する双エージェントフレームワーク「MSSR」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

本論文は、3D 大規模言語モデルの接地された推論能力を向上させるため、マルチモーダル専門モジュールを用いた視覚的手がかりに基づく「SceneCOT」という新しい推論フレームワークと、18.5 万件の高品質な事例からなる大規模データセット「SCENECOT-185K」を提案し、複雑な 3D シーン理解において人間のような段階的推論を可能にすることを示しています。

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

本論文は、従来の領域理解が欠落していたグローバルな文脈と複数領域間の相互作用を統合し、任意の領域に対する精密な知覚と高度な推論を可能にする「Grasp Any Region (GAR)」モデルと、その評価ベンチマーク「GAR-Bench」を提案し、小規模モデルでも大規模モデルや動画領域に特化したモデルを上回る性能を実証したものである。

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

本論文は、大規模マルチモーダルモデルによる長動画理解における視覚トークンの膨大さを解決するため、施設場所関数と遅延貪欲法を用いてトレーニング不要かつモデル非依存で効率的に代表的なトークンを選択する新しい圧縮フレームワーク「FLoC」を提案し、主要なベンチマークで既存手法を上回る性能を示したことを報告しています。

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream は、教師モデルを因果的な学生モデルに蒸留し、スライディングウィンドウ機構とアテンションシンクを採用することで、無限長の動画をリアルタイムかつ高品質に生成できる新しい動画生成フレームワークです。

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

本論文は、筋電図（sEMG）に基づくジェスチャー認識におけるデータ不足と過学習の問題を解決するため、意味的ガイダンスとスパース性意識サンプリングを組み合わせた拡散モデルベースのデータ拡張手法「SASG-DA」を提案し、既存手法を上回る汎化性能と認識精度の実現を報告するものです。

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

本論文は、DeiT を基盤とし、標準的なデータ拡張から高度な拡張へと段階的に進化する二段階学習戦略を採用した深層偽造検出モデル「DeiTFake」を提案し、OpenForensics データセットにおいて 99.22% の精度と 0.9997 の AUROC を達成して既存のベースラインを上回る性能を示したことを報告しています。

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

本論文は、人間の注釈を一切必要とせず、超音波モニターの撮影画像から自動的にラベル付きデータを生成して画像を抽出・補正するパイプラインを提案し、その補正画像が元の DICOM 画像と同等の精度で心臓ビューの分類を可能にすることを示したものである。

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

本論文は、BEV 语义と自車軌跡を同時に予測する離散トークン自己回帰モデル「DAP」を提案し、強化学習による微調整と合わせて、1.6 億パラメータというコンパクトな規模で自動運転の計画タスクにおいて最先端の性能を達成することを示しています。

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

本論文は、臨床現場で頻繁に発生する MRI 画像モダリティの欠損問題に対処し、任意のモダリティ組み合わせに対して頑健かつ高精度な脳腫瘍セグメンテーションを実現するため、階層的モダリティ自己蒸留と段階的モダリティ組み合わせ蒸留を組み合わせた新しいクロスモーダル構成自己蒸留（CCSD）フレームワークを提案し、公開ベンチマークにおいて最先端の性能を達成したことを報告しています。

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

← 前へ次へ →