cs.CV 件の論文 | Gist.Science

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

本論文は、リモートセンシングにおける不完全なマルチモーダルデータ分割の課題（モダリティ間の不均衡、クラス内変動、異種性）を克服するため、セマンティックなガイダンスを用いてモダリティの頑健性を推定し、適応的な融合とサンプリングを行う「SGMA」フレームワークを提案し、最先端の手法を上回る性能を実証したものである。

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

本論文は、ABIDE I データセットを用いて、解剖学的アトラスに代わり機能的な脳領域分割を採用し、グラフ注意ネットワーク（GAT）を適用することで、自閉スペクトラム症（ASD）の分類精度を 95.0% まで向上させ、モデルの判断が後部帯状皮質や楔前部といった Default Mode Network のハブに依存していることを説明可能に示した研究です。

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

本論文は、地球観測画像の連続性を活用して隣接画像間の空間依存関係を学習し、動的なマスク比率調整と損失重み付けを導入した自己教師あり学習手法「NeighborMAE」を提案し、既存手法を上回る性能を実証したものである。

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

本論文は、自律走行の安全性向上に向けたマルチモーダル協調知覚において、従来の高帯域幅を必要とする局所融合アプローチに代わり、軽量な協調ボクセルとヒートマップ駆動の合意プロトコルを用いて冗長性を削減しつつ、87.98% の帯域幅削減と 73.01% の AP@0.5 という高い精度を達成する「EIMC」と呼ばれる効率的なインスタンス指向の協調知覚フレームワークを提案するものである。

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

本論文は、クラス不均衡問題で広く用いられるフォカル・ロスに対応する「フォカル・エントロピー」を導入し、その数学的性質を情報理論的に解析することで、フォカル・ロスが中程度の確率を増幅し高確率を抑制するメカニズムと、極端な不均衡下での過剰抑制の現象を理論的に解明し、不均衡学習におけるトレードオフを明確にしています。

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

本論文は、無人航空機（UAV）による上空からの撮影では見落としがちな森林内の行方不明者検出の課題を解決するため、地上および低高度からの視点で収集された大規模データセット「ForestPersons」を提案し、既存の検出モデルでは不十分であることを示すとともに、実世界の捜索救助活動における高度な人物検出能力の向上を支援するベンチマークとして公開しています。

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

本論文は、閉じたセットの動作理解において生成モデルの非効率性と曖昧さを克服し、精度と効率を両立させるため、微調整時のみ動作する「生成支援判別分類器（GAD）」を提案し、複数のベンチマークで最先端の結果を達成したことを報告しています。

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

SemGS は、スパースな画像入力から一般化可能なセマンティック 3D 場を再構築するための双枝構造とカメラ感知アテンション機構を備えたフードフォワード型フレームワークであり、既存手法の制約を克服して高速推論と高い汎化性能を実現します。

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

この論文は、外科医の指示に基づいて視覚言語モデルで軌道を生成し、リアルタイムの障害物感知と二次計画法を用いた衝突回避制御を統合することで、動的環境下での安全かつ効率的な手術器具の受け渡しを実現する衝突回避型二腕手術支援ロボットを提案し、83.33%の成功率でその有効性を実証したものである。

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

本論文は、視覚基盤モデルからの知識蒸着においてドメイン外汎化性能を維持・向上させるため、表現学習とタスク学習を分離し、クエリベースのソフト蒸着メカニズムを導入した「Generalizable Knowledge Distillation (GKD)」を提案し、複数のベンチマークで既存手法を上回る性能を達成したことを報告しています。

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

本論文は、視覚的対比を利用することで視覚言語モデルの推論経路における幻覚を軽減し、自己改善フレームワーク「VC-STaR」と新規データセット「VisCoR-55K」を提案することで、既存手法や最先端の視覚推論データセットを用いたモデルを上回る推論能力の向上を実現したことを示しています。

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

本論文は、視覚言語モデルのクラス間誤分類パターンを「混同バンク」で明示的にモデル化し、セマンティックおよびサンプルレベルの混同情報を統合して推論を強化する「CAPT（混同認識型プロンプトチューニング）」フレームワークを提案し、11 のベンチマークデータセットにおいて誤分類を大幅に削減し、モデルの識別力と汎化性能を向上させることを実証しています。

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

この論文は、単一の気象劣化だけでなく、霞・雨・雪などの複合的な悪天候下でも赤外線画像と可視光画像の融合と復元を同時に高精度に行う、世界初の統一エンドツーエンドモデル「CAWM-Mamba」を提案し、その有効性をベンチマークおよび下流タスクで実証したものである。

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Kuaishou のオンライン推薦システムにおいて、低ランク構造を活用してアテンションの計算複雑度を削減し、1 万規模の行動シーケンスと数千規模の候補アイテムをフィルタリングなしで効率的に処理する「SOLAR」フレームワークを提案し、動画視聴数の向上など実ビジネス指標の改善を実現した研究です。

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

本論文は、学習可能なトークン辞書とトークン辞書クロスアテンション機構を導入することで、画像復元タスクにおいて線形計算量でグローバルな依存関係をモデル化し、性能と計算コストの両面で最先端の結果を達成する新しいトランスフォーマーアーキテクチャ「ATD」を提案するものです。

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

本論文は、画像から得た高精度な幾何学情報と環境電磁場を制約として用いることで物理的逆問題の解を安定化させ、非侵襲的な RF 信号から連続的な材料パラメータを推定し、物理シミュレーション可能な機能的なデジタルツインを構築する新たなフレームワーク「NEMF」を提案するものである。

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

この論文は、リソース制約のある言語であるベンガル語の文字認識において、軽量な Vision Transformer モデル（EfficientViT）の汎化性能を最大化するため、CLAHE やランダム回転など様々なデータ拡張手法を評価し、ランダムアフィンとカラージッターの組み合わせが Ekush および AIBangla データセットで最高精度（それぞれ 97.48%、97.57%）を達成したことを示しています。

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

← 前へ次へ →

cs.CV