cs.CV 件の論文 | Gist.Science

Spread them Apart: Towards Robust Watermarking of Generated Content

この論文は、生成モデルの再学習を必要とせず、推論時に透かしを埋め込むことで、生成コンテンツの検出と利用者特定を可能にし、かつ付加的な摂動や合成的な透かし除去攻撃に対して頑健な新しい透かし手法を提案するものである。

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

本論文は、シミュレーションデータと実世界の少量ラベルデータ（2.5%）のみで、全量の実データを用いたモデルと同等の性能を達成し、かつ未ラベルの物体検知においても大幅な改善を実現する、自動運転 LiDAR 感知のためのプラグアンドプレイ手法「JiSAM」を提案しています。

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

本論文は、従来の走査順序の制約を打破し、位置情報の明示的なガイダンスとコンテンツ表現を分離する新規なデカップリング復号フレームワーク「ARPG」を提案することで、画像生成の推論効率とゼロショット汎化性能を大幅に向上させることを示しています。

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

この論文は、投影や解離型モデルに依存せずに高品質な 3D 意味セマンティックなシーンスケールデータを生成する新たな手法を提案し、これにより実データと合成データを組み合わせて自律走行用のセマンティックセグメンテーションモデルの性能向上とデータ注釈コストの削減を実現することを示しています。

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

本論文は、認知科学の選択的注意に着想を得た「Text Insulation-and-Attention」メカニズムと強化学習を導入し、既存の強固なモデルをパラメータ追加なしで改良して複雑な視覚テキスト生成の精度を飛躍的に向上させるとともに、大規模産業モデルを凌駕する性能を低リソースで達成する新たなベンチマーク「CVTG-2K」を提案する「TextCrafter」を提示しています。

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

本論文は、欠損したモダリティに頑健であり、教師モデルの計算リソースを約 50% 削減しながら多様なセンサー構成での展開を可能にする、新しいマルチモーダル知識蒸留フレームワーク「KARMMA」を提案し、Epic-Kitchens や Something-Something などのデータセットでその有効性を示しています。

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

この論文は、合成ステレオデータセットの設計パラメータを系統的に調査し、ゼロショットステレオマッチングの性能向上に寄与する最適な設定を特定して大規模データセットを構築・公開することで、既存の混合データセットや FoundationStereo と同等以上の性能を達成できることを示しています。

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

本論文は、SAM2 ベースのアナトミカル事前知識、階層的残差ダウンサンプリング、および等方的なフェルマート螺旋走査を組み合わせた「FermatSyn」を提案し、臨床データ不足を解消する高品質なマルチモーダル医療画像合成を実現するものである。

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

本論文は、衛星画像時系列データの複雑な空間・時間的相互作用を捉えるためにグラフベース手法を統合する包括的なレビューとケーススタディを通じて、土地被覆分類や水資源予測などのタスクにおけるその可能性と将来の展望を論じています。

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

本論文は、アテンション機構のチャネル冗長性を CNN、アテンション、MLP ブランチに体系的に割り当てるチャネルワイズ機能分解と、SPD 空間におけるクロスレイヤー対照的アライメントを行う多様体正則化を導入することで、多様な劣化に効率的かつ高性能に対応する画像復元フレームワーク「MIRAGE」を提案し、既存の手法を凌駕する性能と効率性を達成したものである。

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

本論文は、ステージングデータ、合成データ、実世界の事故動画という 3 つのドメインを統合し、プライバシーに配慮しつつ実環境での転送性能を評価できる包括的なフォール検出ベンチマーク「OmniFall」を提案し、合成データが実ステージングデータを凌駕する可能性を示しています。

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

本論文は、拡散モデルを用いた画像編集において、構造的な変化や非剛体変形を伴う編集でもアーティファクトを抑制し、ソース画像の構造やテクスチャを正確に維持しながら高品質な結果を得るために、対応関係に基づくノイズ補正と補間アテンションマップを導入した新しいフレームワーク「Cora」を提案するものである。

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

本論文は、既存の歩行者軌道予測モデルに環境との衝突を回避する能力を付与し、ETH/UCY データセットでの実験により衝突発生率を大幅に低減したコントラスト学習ベースのモジュール「ECAM」を提案するものである。

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

この論文は、大規模言語モデル（LLM）の知識を活用してテキスト情報を強化し、CLIP による画像・テキスト埋め込みの融合と多重アテンション機構を組み合わせることで、クロスドメイン逐次推薦の精度を大幅に向上させる新しい手法「LLM-EMF」を提案し、複数の電子商取引データセットでの実験によりその有効性を実証したものです。

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

この論文は、教師モデルのバイアスに起因する長尾分布における知識蒸留の課題を解決するため、予測分布の誤差をグループ間・グループ内で分解し、再重み付けされた損失関数を用いてバランスの取れた知識を抽出する新しいフレームワーク「LTKD」を提案し、複数のデータセットで既存手法を上回る性能を実証しています。

Seonghak Kim2026-03-02💻 cs

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

この論文は、SFT と RLVR のトレードオフを動的に調整する「DyME」という新たな学習パラダイムと視覚的監視メカニズムを提案し、小規模な視覚言語モデル（SVLM）に安定した推論能力を付与することで、専門分野における性能を大幅に向上させることを示しています。

Jiazhen Liu, Yuchuan Deng, Long Chen2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

本論文は、熱帯林の樹冠検出を目的とした、3 カ国にまたがり 8 万 3 千以上の手動ラベル付き高解像度ドローン画像を含む「SelvaBox」という大規模オープンデータセットを公開し、高解像度入力が検出精度の向上に寄与することや、本データセットで学習したモデルが他データセットにおいても優れた汎化性能を示すことを実証しています。

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Concept-based Adversarial Attack: a Probabilistic Perspective

この論文は、単一画像の摂動ではなく概念の分布を操作する確率的アプローチを採用することで、元の概念を保持しつつ多様で効率的な敵対的サンプルを生成する新たな攻撃フレームワークを提案しています。

Andi Zhang, Xuan Ding, Steven McDonagh + 1 more2026-03-02🤖 cs.AI

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

この論文は、気象分野でまだあまり利用されていない説明可能なブースティングマシン（EBM）を用いて、知識に基づく機械学習アプローチにより衛星画像からオーバーシュート・トップを特定する解釈可能なモデルを開発し、人間の専門家の戦略と機械学習を融合させた手法を提案しています。

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

pFedMMA: Personalized Federated Fine-Tuning with Multi-Modal Adapter for Vision-Language Models

本論文は、分散・異質なデータ環境において視覚言語モデルを効率的に適応させるため、モダリティ固有の層と共有投影層を備えたマルチモーダルアダプターを導入し、個人化と汎化性能の両立を達成する新しいパーソナライズド連合学習フレームワーク「pFedMMA」を提案するものである。

Sajjad Ghiasvand, Mahnoosh Alizadeh, Ramtin Pedarsani2026-03-02🤖 cs.LG

← 前へ次へ →