cs.CV 件の論文 | Gist.Science

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

この論文は、現実世界の自動運転において頻発するマルチカメラ入力の欠損に対処し、マルチビューマスク再構成と特徴量メモリモジュールを組み合わせることで、不完全な観測条件下でも堅牢な3Dセマンティックオキュパンシー予測を実現するフレームワーク「 $M^2$ -Occ」を提案し、nuScenes ベンチマークにおいて大幅な性能向上を実証したものである。

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun Yang2026-03-11⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

本論文は、連続環境における視覚言語ナビゲーション（VLN-CE）において、SFT の累積誤差や RFT のスパースな報酬という課題を解決するため、不完全な軌道から密な教師信号を抽出し、ステップごとの進捗評価と動的なバッチ処理を行う「ステップ認識型対照的アライメント（SACA）」を提案し、SOTA 性能を達成したことを示しています。

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

本論文は、産業現場における人間の行動理解を促進するため、現実の環境で同期された 180 組の egocentric（主観的）および exocentric（客観的）360 度動画を収集し、時間的・空間的注釈を付与した新しいデータセット「ENIGMA-360」とそのベンチマーク結果を公開するものである。

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

この論文は、視覚的曖昧性を克服し言語の表現力を活用して手順計画の精度を大幅に向上させる新たな手法「LAP（Language-Aware Planning）」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

この論文は、マルチモーダル拡散トランスフォーマーを用いて、テキストプロンプトの代わりに文字画像を入力し、注意メカニズムを制御することで追加学習なしに多言語ロゴを生成・様式化できる「LogoDiffuser」を提案し、その有効性を示しています。

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本論文は、360 度室内環境における物体中心かつ視点に依存した既存の限界を克服し、歪み感知スペクトル変調やオムニ球状高密度化ヘッドを備えた「PanoAffordanceNet」フレームワークと、初の高品質パノラマアフォーダンス接地データセット「360-AGD」を提案することで、エンボディドエージェントのための包括的な環境知覚を実現するものです。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

この論文は、大規模視覚言語モデルの内部アテンション機構から対象概念を主に表す視覚トークンを抽出してメモリとして活用する効率的な手法「Ego」を提案し、追加学習や外部モジュールなしで単一・複数概念および動画の個人化において最先端の性能を達成することを示しています。

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

本論文は、既存のバックドア防御がトリガーの除去に依存しているが、実際には訓練トリガーとは異なる「代替トリガー」が同じバックドアを確実に活性化し、防御を回避できることを理論的・実証的に示し、入力空間のトリガー除去ではなく表現空間におけるバックドア方向そのものを標的とした防御の必要性を提唱している。

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

この論文は、既存の説明可能 AI（XAI）手法が見過ごしがちな「概念の不在」によるニューロン活性化という因果関係が重要であることを示し、アトリビューションや特徴可視化手法の拡張を通じてこれを検出・説明する新たなアプローチを提案しています。

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本論文は、テスト時にエゴセントリック視点からエクセントリック視点への行動予測を可能にする新たなタスクを提案し、マルチラベルプロトタイプ成長モジュールとテキスト・視覚の二重の手がかり整合性を活用した新しいネットワーク「DCPGN」により、既存の手法を大幅に上回る性能を実現したことを報告しています。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

この論文は、粗粒度のタスクから脱却し、領域を考慮した音源のセグメンテーションと詳細な記述を同時に実現する新たな細粒度タスク「RA-SSU」を定義し、対応する大規模データセットと SOTA 性能を達成するモデル「SSUFormer」を提案しています。

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

本論文は、2 枚の画像からの大角度視点変化に対する新規視点合成の課題に対し、投影された点雲の信頼度に基づいて拡散モデルを制御し、見えない領域の補完とカメラ軌跡の追従を両立させる「ConfCtrl」というフレームワークを提案するものです。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

本論文は、診断に有用な脳状態の時間的変化と空間的パターンを特定し、解釈可能な動的脳ネットワークモデルを構築するために、適応的な位相分割、アテンション機構、およびスパースなグラフ構造生成を組み合わせた時空間対照学習フレームワーク「BrainSTR」を提案し、自閉症スペクトラム障害、双極性障害、うつ病のデータを用いた実験でその有効性と既存の神経画像所見との整合性を検証したものである。

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

この論文は、大規模視覚言語モデル（VLM）の空間推論能力を活用し、点群を鳥瞰図とシーングラフに変換して自然言語からの位置特定精度を向上させる「VLM-Loc」フレームワークと、その評価用ベンチマーク「CityLoc」を提案するものです。

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

本論文は、複数の具象化エージェントから同時に収集された長時間の第一人称視点動画を理解する新たな課題を定義し、その評価のためのベンチマーク「MA-EgoQA」と、エージェント間の共有メモリと動的検索を活用するベースラインモデル「EgoMAS」を提案しています。

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

CycleULM は、ラベル付きデータや高忠実度シミュレータを必要とせず、物理モデルを模倣した翻訳学習を通じて超音波局在化顕微鏡（ULM）の解像度・精度・処理速度を大幅に向上させ、臨床応用への実用的な道筋を示す初の統一型ラベルフリー深層学習フレームワークです。

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

本論文は、現実のアプリケーションで生じるモダリティの欠損率の偏りを考慮し、感情分析タスクにおけるモデルの公平性と最適化の偏りを評価するための新たなベンチマーク「MissBench」と、その診断指標（MEI と MLI）を提案するものです。

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

この論文は、手首の関節座標と物体のバウンディングボックスというスパースな運動ガイダンス、物体ストレスアテンション機構、そしてマルチタスク補助学習戦略を組み合わせることで、物理的に整合性が高く制御可能な人間 - 物体相互作用（HOI）ビデオ生成を実現する「DISPLAY」というフレームワークを提案しています。

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

本論文は、スポーツの空間的知能を評価する初の大規模データセット「CourtSI」とベンチマーク「CourtSI-Bench」を提案し、既存の視覚言語モデルの空間認識能力の限界を明らかにするとともに、CourtSI によるファインチューニングがモデルの精度向上と汎化性能の改善に寄与することを示しています。

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

← 前へ次へ →

cs.CV

M2M^2M2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs