cs.CV 件の論文 | Gist.Science

Pursuing Minimal Sufficiency in Spatial Reasoning

本論文は、2D 中心の事前学習に起因する 3D 理解の不足と冗長な情報による推論失敗という課題を解決するため、専門モデルからの 3D 知覚結果を最小かつ十分な情報集合（MSS）として選択的に抽出・洗練する双エージェントフレームワーク「MSSR」を提案し、複数のベンチマークで最先端の性能を達成したことを報告するものです。

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

本論文は、3D 大規模言語モデルの接地された推論能力を向上させるため、マルチモーダル専門モジュールを用いた視覚的手がかりに基づく「SceneCOT」という新しい推論フレームワークと、18.5 万件の高品質な事例からなる大規模データセット「SCENECOT-185K」を提案し、複雑な 3D シーン理解において人間のような段階的推論を可能にすることを示しています。

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

本論文は、従来の領域理解が欠落していたグローバルな文脈と複数領域間の相互作用を統合し、任意の領域に対する精密な知覚と高度な推論を可能にする「Grasp Any Region (GAR)」モデルと、その評価ベンチマーク「GAR-Bench」を提案し、小規模モデルでも大規模モデルや動画領域に特化したモデルを上回る性能を実証したものである。

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

本論文は、大規模マルチモーダルモデルによる長動画理解における視覚トークンの膨大さを解決するため、施設場所関数と遅延貪欲法を用いてトレーニング不要かつモデル非依存で効率的に代表的なトークンを選択する新しい圧縮フレームワーク「FLoC」を提案し、主要なベンチマークで既存手法を上回る性能を示したことを報告しています。

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream は、教師モデルを因果的な学生モデルに蒸留し、スライディングウィンドウ機構とアテンションシンクを採用することで、無限長の動画をリアルタイムかつ高品質に生成できる新しい動画生成フレームワークです。

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

本論文は、筋電図（sEMG）に基づくジェスチャー認識におけるデータ不足と過学習の問題を解決するため、意味的ガイダンスとスパース性意識サンプリングを組み合わせた拡散モデルベースのデータ拡張手法「SASG-DA」を提案し、既存手法を上回る汎化性能と認識精度の実現を報告するものです。

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

本論文は、DeiT を基盤とし、標準的なデータ拡張から高度な拡張へと段階的に進化する二段階学習戦略を採用した深層偽造検出モデル「DeiTFake」を提案し、OpenForensics データセットにおいて 99.22% の精度と 0.9997 の AUROC を達成して既存のベースラインを上回る性能を示したことを報告しています。

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

本論文は、人間の注釈を一切必要とせず、超音波モニターの撮影画像から自動的にラベル付きデータを生成して画像を抽出・補正するパイプラインを提案し、その補正画像が元の DICOM 画像と同等の精度で心臓ビューの分類を可能にすることを示したものである。

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

本論文は、BEV 语义と自車軌跡を同時に予測する離散トークン自己回帰モデル「DAP」を提案し、強化学習による微調整と合わせて、1.6 億パラメータというコンパクトな規模で自動運転の計画タスクにおいて最先端の性能を達成することを示しています。

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

本論文は、臨床現場で頻繁に発生する MRI 画像モダリティの欠損問題に対処し、任意のモダリティ組み合わせに対して頑健かつ高精度な脳腫瘍セグメンテーションを実現するため、階層的モダリティ自己蒸留と段階的モダリティ組み合わせ蒸留を組み合わせた新しいクロスモーダル構成自己蒸留（CCSD）フレームワークを提案し、公開ベンチマークにおいて最先端の性能を達成したことを報告しています。

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

本論文は、マルチモーダル大規模言語モデルの推論オーバーヘッドを削減するため、周波数領域におけるエネルギー分布と外れ値 KV を考慮し、既存の効率的なアテンションカーネルと互換性のある新しい KV キャッシュ圧縮フレームワーク「FlashCache」を提案し、高いメモリ効率と高速なデコーディングを実現するものである。

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

本論文は、長距離依存関係のモデル化と線形計算量を実現する状態空間モデル「Mamba」の課題を克服し、対角マスク双方向状態空間モジュールとグローバル特徴融合ヘッドを導入したエンドツーエンドのワンステージ検出器「MambaTAD」を提案し、複数のベンチマークで優れた時間的動作検出性能を達成したことを示しています。

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

この論文は、腕に搭載されたカメラを移動させて最適な視点を確保し、3D ガウススプラッティングを用いて視覚的観測を最適化する「Observer-Actor」フレームワークを提案し、これによりロボットアームの模倣学習における成功率を大幅に向上させることを実証しています。

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

本論文は、単眼動画から高品質でアニメーション可能な 3D ヘッドアバターを再構築する STAvatar を提案し、UV 適応型ソフトバインディングと時間的密度制御戦略を通じて、既存手法の剛性や表現力の限界、および頻繁に隠れる領域の再現課題を解決し、最先端の性能を達成することを示しています。

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

本論文は、悪天候や長距離条件下でも信頼性の高いレーダーセンサの理解を目的として、構造化された空間言語教師信号を用いて統一されたシーン表現を学習するビジョン・言語モデル「RadarVLM」を提案し、その空間的推論能力の向上を実証したものである。

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

本論文は、画像領域とテキストフレーズの間の組合せ的意味を効率的に捉えるため、領域のべき集合と構文木を対照的に整合させる新しい事前学習フレームワーク「PowerCLIP」を提案し、計算コストを削減しながら最先端のゼロショット性能を実現することを示しています。

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

この論文は、敵対的制御による拡散サンプリングの品質劣化を経路空間の KL 発散として定式化し、生成スコアの接空間に敵対的勾配を射影することで分布を保持しつつ分類成功率を維持する新しい手法「DPAC」を提案し、理論的・実証的にその有効性を示したものです。

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

本論文は、医療用視覚言語モデルの公平性を向上させるため、パラメータ効率の高い LoRA 手法に公平性最適化を組み込んだ「MaxAccGap 損失」を提案し、緑内障診断における人種間の精度格差を大幅に縮小しながらも高い診断精度を維持する手法を確立したものである。

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

本論文は、情報理論的観点からトークン間の固有の冗長性を定量化する「情報一意性」を導入し、フレームグループ融合、トークン割り当て、空間的動的圧縮の 3 つのモジュールを備えたユニークな動画圧縮フレームワーク「UniComp」を提案し、限られた計算資源下で既存手法を上回る視覚情報の忠実度を実現することを示しています。

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

本論文は、拡散モデルのノイズ過程で位相成分を保持し振幅のみをランダム化することで、アーキテクチャの変更なしに幾何学的整合性を保つ構造整合生成を実現する「位相保存拡散（Phase-Preserving Diffusion）」を提案し、画像・動画の再レンダリングやシミュレーションから実世界への転移タスクにおいて高い性能を示すことを示しています。

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

← 前へ次へ →