cs.CV 件の論文 | Gist.Science

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

この論文は、患者データのプライバシーを保護しつつ、医療機関の分散環境におけるオープンセットなノイズを効果的に除去し、アクティブラーニングの効率を大幅に向上させるために、動的な VLM ゲート機構「PromptGate」を提案するものである。

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

本論文は、異なるアーキテクチャ（CLIP 事前学習済み Vision Transformer と CNN）を用いた非対称な共教と、損失軌跡分析に基づく機械的忘却を組み合わせた「ACD-U」を提案し、ノイズ付きラベル環境における誤分類サンプルの事後修正を通じて、従来の誤り回避から能動的な誤り修正へと学習パラダイムを転換し、高いノイズ率やインスタンス依存ノイズ下でも最先端の性能を達成する手法を報告しています。

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

本論文は、計算病理学におけるトランスフォーマーモデルの解釈性を向上させるため、クラス可視化と活性化アトラスを評価し、これらが組織分類やがんサブクラス分類のタスクにおいて、専門家の合意度と内在的な病理学的複雑さを反映する構造化された形態的多様体を明らかにすることを示しています。

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

この論文は、複雑な屋外環境における無人航空機（UAV）の視覚言語ナビゲーションタスクにおいて、環境認識と自然言語による思考連鎖（Chain-of-Thought）を統合し、教師あり微調整と強化学習の 2 段階トレーニング戦略を採用したエンドツーエンドのフレームワーク「FreeFly-Thinking」を提案し、その優れた性能を実証するものです。

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

本論文は、動画生成におけるトークンの爆発的増加という計算ボトルネックを解決するため、空間的および時間的な類似性を基に不要なトークンを剪定し、高品質な動画を維持しながら最大 2.01 倍の高速化を実現するトレーニング不要のフレームワーク「FastSTAR」を提案しています。

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

本論文は、深層学習モデルが少数の支配的なパラメータに依存する脆弱性が分布外（OOD）データによる過剰な自信につながるとする洞察に基づき、動的な閾値を用いてパラメータ寄与を調整し、より広範なパラメータに基づく意思決定を促す「SPCP」という手法を提案することで、OOD 検出のロバスト性を向上させることを示しています。

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

VINO は、教師・学生フレームワークと構造的な情報ボトルネックを活用して、動画の自己教師あり学習において背景の文脈に依存しない頑健な物体特徴表現を学習し、PASCAL VOC における物体発見タスクで既存手法を大幅に上回る性能を達成する手法です。

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

本論文は、解剖学的事前知識と適応的コンテキストモデリングを統合し、極めて少ないパラメータ数と計算量でトランスフォーマーベースの手法に匹敵する精度を達成する軽量な 3D 医用画像セグメンテーションモデル「LightMedSeg」を提案するものである。

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

この論文は、拡散モデルが単一画像超解像において低解像度の証拠に基づいて高周波構造を回復する際のアートファクトや一貫性の欠如を解決するため、未縮小マルチスケール表現とスケール間の親子依存関係をモデル化する双変量アトラスウェーブレット変換を導入した教師なしモデル「BATDiff」を提案し、既存手法よりも鮮明で構造的に整合性の高い再構成を実現したことを示しています。

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

本論文は、ドメインのドリフトやユーザーの好み変化といった動的な環境下で、従来の重みの上書きに依存せず、インスタンス条件から動的に重み更新を合成する「HY-WU」と呼ばれる拡張可能な機能的ニューラル記憶フレームワークを提案し、テキストガイド画像編集への適用例を示すものである。

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

この論文は、マクロなテクスチャ生成とマイクロな織り構造の生成を分解して処理するエンドツーエンドのフレームワーク「FabricGen」を提案し、テキスト記述から現実的な織物素材を生成する手法を提示しています。

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

本論文は、スライド生成の自動評価における既存手法の粗粒度な限界を克服し、人間の評価と高い整合性を示す 238 の事例と詳細なチェックリストからなる「PresentBench」という細粒度の基準に基づくベンチマークを提案し、NotebookLM が他の手法を大幅に上回ることを実証したものである。

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

本論文は、衛星リモートセンシングデータにおける幾何学的な不整合を解決するため、従来の潜空間補間ではなく、幾何学的な拡張条件に基づいて変換された埋め込みを直接予測する「LEPA」という新しいアーキテクチャを提案し、その精度が大幅に向上することを示しています。

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

この論文は、条件付き生成や逆問題を単一ステップで解決するため、サンプリング経路の誘導ではなく「適切な初期ノイズ分布を学習する」という新たな視点に基づき、変分フローマップ（VFM）というフレームワークを提案するものです。

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

既存のバーチャル試着ベンチマークが西洋風の服装に偏っている問題を解決するため、複雑なドレープや非対称なレイヤリングといった独自の構造的課題を持つバングラデシュの伝統衣装（サリー、パンジャビ、サルワール・カメーズなど）を対象とした新しいデータセット「BD-VITON」を提案し、複数の試着モデルを再学習・評価することでゼロショット推論よりも優れた性能を実証した。

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

本論文は、1,000 種以上の鳥類を対象とした画像・音声・テキストを統合した大規模データセット「MAviS-Dataset」と、それに基づいて構築された鳥類専門のマルチモーダル対話モデル「MAviS-Chat」、およびその性能評価ベンチマーク「MAviS-Bench」を提案し、生態学応用におけるドメイン適応型マルチモーダル大規模言語モデルの有効性を示しています。

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

本論文は、敵対的訓練と中間層での特徴マップの平滑化を組み合わせることで、スパーシブかつ入力・出力両面で安定性が高く、人間が信頼しやすいセリエンシーマップを実現する新たな訓練手法を提案しています。

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

この論文は、セグメンテーションモデル（SAM）の画像エンコーダとマスクデコーダの特性を考慮し、構造とスペクトルを保持するトークンマージ手法「StructSAM」を提案することで、既存の手法よりも高い効率性と精度を両立させることを示しています。

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

本論文は、異種センサーやモデルを搭載した自律走行車間の協働知覚における特徴量ドメインのギャップを、低ランク視覚プロンプトの微調整とピラミッド融合を用いて、プライバシーを保護しつつ大規模なモデル再学習なしに効率的に解決する軽量フレームワーク「Faster-HEAL」を提案し、OPV2V-H データセット上で最先端手法を上回る検出性能と低い計算コストを実現したことを報告しています。

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

この論文は、複雑な軌道予測ネットワークを必要とせず、物体検出とデジタルツイン環境におけるオフライン経路マップの活用によって、リソース制約のあるエッジデバイス上でリアルタイムに車両追跡と衝突予測を実現する軽量フレームワークを提案し、エッジ環境での実用性を示しています。

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

← 前へ次へ →