cs.CV 件の論文 | Gist.Science

R2GenCSR: Mining Contextual and Residual Information for LLMs-based Radiology Report Generation

本論文は、Mamba を用いた効率的な視覚バックボーンと、正負の関連サンプルからの文脈情報の抽出を組み合わせることで、LLM を活用した高精度な放射線レポート生成を実現する新フレームワーク「R2GenCSR」を提案し、複数のデータセットでその有効性を検証したものです。

Xiao Wang, Yuehang Li, Fuling Wang + 3 more2026-03-02💬 cs.CL

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

この論文は、固定された走査戦略に起因するバイアスを解消し、多モーダル画像融合の性能を向上させるため、ランダムシャッフルと逆シャッフルを組み合わせた新しい走査戦略「Shuffle Mamba」を提案し、その有効性を広範な実験で実証したものである。

Ke Cao, Xuanhua He, Tao Hu + 3 more2026-03-02💻 cs

Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

この論文は、ラベルが重要な入力かつ機密情報という二重の役割を果たす垂直フェデレーテッドラーニングにおいて、マンフォールドミックスアップと勾配ベースの最適化を組み合わせて、データ開示なしに少数のサンプルで効率的にラベルの学習忘却を実現する初の手法を提案し、その有効性を多様なデータセットで実証したものである。

Hanlin Gu, Hong Xi Tae, Lixin Fan + 1 more2026-03-02🤖 cs.LG

Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts

この論文は、LLM の事前知識を活用したモーション生成と、視点および領域をガイドする混合専門家（MoE）機構を組み合わせた「Stereo-Talker」を提案し、音声入力から高精度な口形同期、表現豊かな身振り、連続視点制御が可能な 3D talker ビデオを生成するシステムを開発したものである。

Xiang Deng, Youxin Pang, Xiaochen Zhao + 6 more2026-03-02💻 cs

Aligning Few-Step Diffusion Models with Dense Reward Difference Learning

本論文は、既存の強化学習手法の限界を克服し、ノイズ状態と予測クリーン状態の両方を追跡する双状態軌道サンプリングや潜在類似性に基づく密な報酬予測戦略などを導入した「Stepwise Diffusion Policy Optimization (SDPO)」を提案することで、少数ステップの拡散モデルを効率的に特定の目的に整合させる手法を開発したことを示しています。

Ziyi Zhang, Li Shen, Sen Zhang + 6 more2026-03-02🤖 cs.LG

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception

本論文は、LiDAR 点群のラベル付け負担を軽減するため、従来の単一フレーム処理や対比学習・マスク自己符号化とは異なり、再帰的埋め込みと時間的ニューラル場を用いて未来の観測を予測する「TREND」という教師なし 3 次元表現学習手法を提案し、NuScenes などのデータセットにおける 3 次元物体検出タスクで既存の最善手法を大幅に上回る性能向上を実現したことを示しています。

Runjian Chen, Hyoungseob Park, Bo Zhang + 3 more2026-03-02💻 cs

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

本論文は、画像と点群の両方の情報を効率的に活用して融合 3D 感知タスクの性能を大幅に向上させるため、曲率サンプリングと学習可能なプロトタイプを用いた教師なし事前学習手法「CLAP」を提案し、NuScenes や Waymo データセットにおいて既存の最先端手法を凌駕する成果を示しています。

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

本論文は、AI 生成動画の検出を促進するために、11 の最先端生成モデルから収集された 678 万本を超える大規模かつ多様なデータセット「GenVidBench」を提案し、その有効性を示したものです。

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

この論文は、画像スケールの影響を考慮し、マルチスケール画像から推定された多粒度の照明分布マップを注意機構を用いて融合するトリブランチ畳み込みネットワークを提案することで、多光源色収差補正の性能を最先端レベルまで向上させたことを示しています。

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

本論文は、動画生成における拡散トランスフォーマー（DiT）の訓練を加速するため、動的なアテンションの疎性を低ランク近似で捉え、カスタムカーネルとハイブリッドな疎性対応コンテキスト並列化を組み合わせる「DSV」を提案し、画質を維持したまま最大 3.02 倍の訓練スループット向上を実現したことを報告しています。

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

この論文は、生成モデルの再学習を必要とせず、推論時に透かしを埋め込むことで、生成コンテンツの検出と利用者特定を可能にし、かつ付加的な摂動や合成的な透かし除去攻撃に対して頑健な新しい透かし手法を提案するものである。

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

本論文は、シミュレーションデータと実世界の少量ラベルデータ（2.5%）のみで、全量の実データを用いたモデルと同等の性能を達成し、かつ未ラベルの物体検知においても大幅な改善を実現する、自動運転 LiDAR 感知のためのプラグアンドプレイ手法「JiSAM」を提案しています。

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

本論文は、従来の走査順序の制約を打破し、位置情報の明示的なガイダンスとコンテンツ表現を分離する新規なデカップリング復号フレームワーク「ARPG」を提案することで、画像生成の推論効率とゼロショット汎化性能を大幅に向上させることを示しています。

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

この論文は、投影や解離型モデルに依存せずに高品質な 3D 意味セマンティックなシーンスケールデータを生成する新たな手法を提案し、これにより実データと合成データを組み合わせて自律走行用のセマンティックセグメンテーションモデルの性能向上とデータ注釈コストの削減を実現することを示しています。

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

本論文は、認知科学の選択的注意に着想を得た「Text Insulation-and-Attention」メカニズムと強化学習を導入し、既存の強固なモデルをパラメータ追加なしで改良して複雑な視覚テキスト生成の精度を飛躍的に向上させるとともに、大規模産業モデルを凌駕する性能を低リソースで達成する新たなベンチマーク「CVTG-2K」を提案する「TextCrafter」を提示しています。

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

本論文は、欠損したモダリティに頑健であり、教師モデルの計算リソースを約 50% 削減しながら多様なセンサー構成での展開を可能にする、新しいマルチモーダル知識蒸留フレームワーク「KARMMA」を提案し、Epic-Kitchens や Something-Something などのデータセットでその有効性を示しています。

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

この論文は、合成ステレオデータセットの設計パラメータを系統的に調査し、ゼロショットステレオマッチングの性能向上に寄与する最適な設定を特定して大規模データセットを構築・公開することで、既存の混合データセットや FoundationStereo と同等以上の性能を達成できることを示しています。

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

本論文は、SAM2 ベースのアナトミカル事前知識、階層的残差ダウンサンプリング、および等方的なフェルマート螺旋走査を組み合わせた「FermatSyn」を提案し、臨床データ不足を解消する高品質なマルチモーダル医療画像合成を実現するものである。

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

本論文は、衛星画像時系列データの複雑な空間・時間的相互作用を捉えるためにグラフベース手法を統合する包括的なレビューとケーススタディを通じて、土地被覆分類や水資源予測などのタスクにおけるその可能性と将来の展望を論じています。

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

本論文は、アテンション機構のチャネル冗長性を CNN、アテンション、MLP ブランチに体系的に割り当てるチャネルワイズ機能分解と、SPD 空間におけるクロスレイヤー対照的アライメントを行う多様体正則化を導入することで、多様な劣化に効率的かつ高性能に対応する画像復元フレームワーク「MIRAGE」を提案し、既存の手法を凌駕する性能と効率性を達成したものである。

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

← 前へ次へ →