cs.CV 件の論文 | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

この論文は、視覚言語モデル（VLM）に基づく視覚的グラウンディングシステムに対して、任意のターゲット対象の記述に応答して動的に生成される入力依存型のトリガーを用いた、初の多ターゲットバックドア攻撃手法「IAG」を提案し、その高い攻撃成功率と隠蔽性を示したものである。

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Video-EM は、長期動画理解における文脈制約を解決するため、既存の Video-LLM を追加学習なしで活用し、LLM を能動的な記憶エージェントとして機能させることで、クエリ関連の瞬間を特定し、一貫したイベントにグループ化し、冗長性を除去する自己反省ループを経て、コンパクトかつ信頼性の高い「イベントタイムライン」を構築するトレーニングフリーのフレームワークである。

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

本論文は、LLM と潜在拡散モデルを中核とし、幾何学的・意味的学習戦略を組み合わせることで、3D 画像の生成と空間的視覚質問応答（VQA）を統合的に実現する初のフレームワーク「UniUGG」を提案するものである。

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

この論文は、単一画像から物理特性を考慮した3Dガウス表現を直接予測し、高速かつ高品質な4Dシミュレーションを実現する新しいフレームワーク「PhysGM」と、それを訓練するための大規模データセット「PhysAssets」を提案するものである。

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

本論文は、フレームおよびセマンティックレベルで冗長なポーズトークンを動的に剪除する階層的時系列剪除（HTP）戦略を提案し、拡散モデルに基づく 3 次元人体姿勢推定の計算コストを大幅に削減しつつ最先端の性能を達成する効率的なフレームワークを構築したものである。

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice は、3 次元点群を 2 次元スライスに変換し、垂直方向の幾何学的関係を維持するためのスライス相互作用ネットワーク（SIN）を導入することで、自律運転における 3 次元物体検出の精度と推論速度の両立を実現する新たな手法を提案しています。

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

本論文は、各クライアントでモダリティとデータが異なる非中央集権的な MRI 画像セグメンテーション課題を解決するため、モダリティの情報を解離・共有し、欠落モダリティを補完する新たな連合学習フレームワーク「MDM-MixMFL」を提案するものである。

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

この論文は、YOLO 物体検出モデルや車線推定アルゴリズムなどのコンピュータビジョン技術を用いて外部から車両を監視し、自動運転車向けに非接続車両の運転者の不注意や酩酊などの危険な運転行動をリアルタイムで分類する新規フレームワークを提案し、その有効性を検証したものである。

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

この論文は、コスト効率、移動性、安全性に優れた超音波画像診断において、従来の別々のタスクとして扱われていた疾患予測と組織セグメンテーションを、計算コストを抑えつつ同時に高精度に行うための新しい汎用フレームワーク「UltraUPConvNet」を提案し、大規模データセットでの検証によりその有効性を示しています。

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

この論文は、従来の事例検索に依存せず、好奇心駆動型の正則化を用いて構造化された事例空間を学習する「Traffic-MLLM」を提案し、複雑な交通シナリオにおける推論精度と汎化性能を大幅に向上させたことを報告しています。

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

本論文は、従来の線形アテンションにおける低ランク制約と特徴の冗長性を解消し、高解像度画像処理において計算効率と表現力を両立させるために、入力適応型の選択的アダプティブゲーティング（SAGA）を提案するものである。

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア（CCS）」を提案し、その有効性と理論的根拠を実証しています。

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

本論文は、都市の街路樹インベントリを効率化するため、2 つの都市で収集された 2 万 1,007 件のアノテーション付き木々を含む大規模なマルチモーダルデータセット「WHU-STree」を提案し、その多様なタスクへの適用性と将来の課題を検証するものです。

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

本論文は、制限された計算資源やプライバシー制約下でも実用的な産業環境で動作する、5 つの役割特化型エージェントと安全チェックアウディット、および適応的ステップ融合（ASF）を採用したマルチエージェント協調アシスタント「MICA」を提案し、その有効性をベンチマークと評価指標を用いて実証するものである。

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

この論文は、大規模視覚言語モデル（LVLM）が文脈的不整合下で物体認識に失敗する現象を「ORIC」フレームワークを用いて分析し、不整合な文脈における認識精度の低下を実証するとともに、視覚強化学習による微調整でモデルの信頼性を向上させる手法を提案しています。

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

本論文は、イベントカメラのバイナリ構造とフーリエ領域の高速相互相関を用いて処理遅延を 2.88ms に抑え、昼夜・室内外を問わず 3000 メートル以上で横逸脱誤差 15cm 未満のリアルタイム視覚教示・反復ナビゲーションを実現するシステムを提案するものである。

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

この論文は、既存の動画ベンチマークが音声情報を過小評価していることを実証し、音声エンコーダーを統合した新しいモデルが音声理解やクロスモーダルなタスクにおいて明確な性能向上をもたらすことを示しています。

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

本論文は、単一の画像から高忠実度な表面と SDF 場を数秒で効率的に再構築し、ロボットにおける表面追従タスクへの応用を可能にする軽量フレームワーク「FINS」を提案するものである。

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer（MATR）」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。

Xu Yang, Gady Agam2026-03-10💻 cs

← 前へ次へ →