cs.CV 件の論文 | Gist.Science

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

この論文は、悪天候や照明条件の変化に強い 4D レーダーと豊富な意味情報を提供するカメラを融合し、自動運転の 3D セマンティック・オキュパンシー予測の精度と頑健性を向上させる初の研究を提案するとともに、高価な手動アノテーションへの依存を減らすための自動ラベル付きデータセットを導入したことを報告しています。

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

本論文は、マルチステップ展開における視覚的整合性を維持し、推論効率を向上させるために、構造事前学習とアクション条件付き整合性（ACC）の事後学習を組み合わせた二段階トレーニングフレームワークと、整合性を保った推論向け蒸留手法（ICSD）を提案するモバイル世界モデル「MWM」を提案しています。

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

この論文は、拡散モデルの生成プロセスを「編集」と見なし、画像の難易度に応じて大規模モデルと小規模モデルをピクセルおよびタイムステップレベルでハイブリッドに組み合わせることで、Stable Diffusion 3 において既存の手法を上回る 1.83 倍の高速化を実現する「HybridStitch」という新たな手法を提案しています。

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

この論文は、ハワイの雲霧林において低コストのカメラトラップと視覚基盤モデルを組み合わせることで、従来のサンプリングでは検出が困難だった個体レベルの植物物候変動や動植物間の相互作用を、教師あり学習なしに高精度に追跡・分析する手法を提案しています。

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

この論文は、限られた農業データにおいて、複雑なクロスビューアテンションや SSM よりも単純な畳み込みモジュールの方が優れており、バックボーンモデルの質こそが予測精度を決定する主要因であることを示しています。

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

本論文は、大規模かつ多様なデータから学習した汎用的な特徴抽出器と、限られたデータで訓練するタスク固有のドメインアダプターを二段階のバイレベル最適化で組み合わせる転移学習フレームワークを提案し、これにより限られたデータでも高品質な MR 画像再構成を実現することを示しています。

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

本論文は、VR ヘッドセットのオフ軸カメラ構成向けに 68 名の参加者から収集された大規模な未ラベルデータセット「VRGaze」を公開し、ラベルなしで学習可能な注意機構に基づく新しいアテンション誘導型教師なしフレームワーク「GazeShift」を提案することで、VR 環境における高精度かつリアルタイムな視線推定を実現したものである。

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

この論文は、事前学習済みのテキストから画像への拡散モデルの特性を活用し、追加学習なしで腹腔鏡下胆嚢摘出術の動画における重要な解剖学的構造や器具の追跡を可能にする新しい手法を提案し、CholeSeg8K データセットにおいて既存の手法を上回る精度を達成したことを報告しています。

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver は、セマンティックに類似したキャッシュ音声を活用して拡散モデルの推論ステップを動的にスキップするトレーニング不要のシステムであり、音声品質を維持しつつ遅延を最大 3 倍削減します。

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

本論文は、自律走行におけるエンドツーエンドの性能向上を目指し、従来のペアワイズ類似度ではなくマルチモーダル類似度テンソルとテンソル損失を導入することで、テキスト・画像・点雲を統一的な埋め込み空間に同時に整列させる「Contrastive Tensor Pre-training (CTP)」フレームワークを提案するものである。

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

本論文は、産業・医療・航空など多様な領域における微妙な視覚的差異の識別を評価する新たなベンチマーク「VLM-SubtleBench」を提案し、既存の VLM が人間のレベルに達するまでには、属性や状態などの細かな違いに対する推論能力において依然として大きな課題が残っていることを明らかにしています。

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

本論文は、粗い形態・意味構造の理解から微細な境界の調整へと段階的に学習を進める「構造・進行度認識拡散（SPAD）」を提案し、アンカー保持ノイズと進行度認識境界ノイズを進行度認識スケジューラーで制御することで、医療画像セグメンテーションの精度向上を図るものである。

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

この論文は、画像のピクセルをエージェントとしてモデル化し、ヘドニックゲームにおける coalition 形成を画像セグメンテーションという視覚的テストベッドとして検証し、メカニズム設計パラメータが均衡構造に与える影響を定量化することを提案しています。

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

この論文は、自己教師あり学習で事前学習された病理学基盤モデルに、空間トランスクリプトミクスデータを教師信号として組み込む「MINT」という微調整フレームワークを提案し、組織の形態情報と分子状態の両方を統合的に学習させることで、遺伝子発現予測や一般的な病理タスクにおける性能を飛躍的に向上させたことを示しています。

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

本論文は、既知クラスと未知クラスの両方を効果的に活用し、追加のオプセット検出器を必要としない統合フレームワーク「E $^2$ OAL」を提案し、既存の手法よりも高い精度と効率性でオープンセット能動学習を実現するものである。

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

本論文は、クラス固有の概念を潜在変数として扱い、LLM による概念合成と多様性確保、そして外れ値を抑制する適応的ソフトトリム尤度を用いることで、ゼロショット画像認識の性能を飛躍的に向上させる概念誘導ベイズフレームワークを提案するものです。

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

この論文は、明示的な運動推定を不要とし、カスケード型Mambaモジュールと局所性改善フィードフォワードネットワークを統合した直接変換戦略に基づく、低ビットレート条件下で高画質かつ時間的一貫性を有する新しい学習型動画圧縮フレームワークを提案するものです。

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

本論文は、特異値分解によるスペクトル分解と、粗から細への可変形集約モジュールおよび空間・スペクトル相互注意機構を組み合わせた新しい融合フレームワークを提案し、未登録の参照画像を用いたハイパースペクトル画像の超解像性能を大幅に向上させることを示しています。

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

この論文は、悪天候下でも機能するレーダーと既存の LiDAR 地図を統合する新しいフレームワーク「RLPR」を提案し、センサー固有の信号特性を抽象化する双ストリームネットワークと、事前学習されたレーダー分岐を指針とした非対称なクロスモーダル整合戦略により、既存の手法を上回る認識精度とゼロショット汎化性能を達成することを示しています。

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

本論文は、Vision Transformer の線形層を特異値分解し特異値のみを適応させる「IMSE」を提案し、エントロピー最小化の限界を克服する多様性最大化損失とドメイン認識スペクトルコード検索を導入することで、テスト時適応および継続的テスト時適応において極めて少ない学習パラメータで最先端の性能を実現する手法を提示しています。

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

← 前へ次へ →