IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

この論文は、視覚言語モデル(VLM)に基づく視覚的グラウンディングシステムに対して、任意のターゲット対象の記述に応答して動的に生成される入力依存型のトリガーを用いた、初の多ターゲットバックドア攻撃手法「IAG」を提案し、その高い攻撃成功率と隠蔽性を示したものである。

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Video-EM は、長期動画理解における文脈制約を解決するため、既存の Video-LLM を追加学習なしで活用し、LLM を能動的な記憶エージェントとして機能させることで、クエリ関連の瞬間を特定し、一貫したイベントにグループ化し、冗長性を除去する自己反省ループを経て、コンパクトかつ信頼性の高い「イベントタイムライン」を構築するトレーニングフリーのフレームワークである。

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

本論文は、LLM と潜在拡散モデルを中核とし、幾何学的・意味的学習戦略を組み合わせることで、3D 画像の生成と空間的視覚質問応答(VQA)を統合的に実現する初のフレームワーク「UniUGG」を提案するものである。

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

本論文は、フレームおよびセマンティックレベルで冗長なポーズトークンを動的に剪除する階層的時系列剪除(HTP)戦略を提案し、拡散モデルに基づく 3 次元人体姿勢推定の計算コストを大幅に削減しつつ最先端の性能を達成する効率的なフレームワークを構築したものである。

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice は、3 次元点群を 2 次元スライスに変換し、垂直方向の幾何学的関係を維持するためのスライス相互作用ネットワーク(SIN)を導入することで、自律運転における 3 次元物体検出の精度と推論速度の両立を実現する新たな手法を提案しています。

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

この論文は、YOLO 物体検出モデルや車線推定アルゴリズムなどのコンピュータビジョン技術を用いて外部から車両を監視し、自動運転車向けに非接続車両の運転者の不注意や酩酊などの危険な運転行動をリアルタイムで分類する新規フレームワークを提案し、その有効性を検証したものである。

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

この論文は、コスト効率、移動性、安全性に優れた超音波画像診断において、従来の別々のタスクとして扱われていた疾患予測と組織セグメンテーションを、計算コストを抑えつつ同時に高精度に行うための新しい汎用フレームワーク「UltraUPConvNet」を提案し、大規模データセットでの検証によりその有効性を示しています。

Zhi Chen, Le Zhang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア(CCS)」を提案し、その有効性と理論的根拠を実証しています。

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

本論文は、制限された計算資源やプライバシー制約下でも実用的な産業環境で動作する、5 つの役割特化型エージェントと安全チェックアウディット、および適応的ステップ融合(ASF)を採用したマルチエージェント協調アシスタント「MICA」を提案し、その有効性をベンチマークと評価指標を用いて実証するものである。

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

この論文は、大規模視覚言語モデル(LVLM)が文脈的不整合下で物体認識に失敗する現象を「ORIC」フレームワークを用いて分析し、不整合な文脈における認識精度の低下を実証するとともに、視覚強化学習による微調整でモデルの信頼性を向上させる手法を提案しています。

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

本論文は、イベントカメラのバイナリ構造とフーリエ領域の高速相互相関を用いて処理遅延を 2.88ms に抑え、昼夜・室内外を問わず 3000 メートル以上で横逸脱誤差 15cm 未満のリアルタイム視覚教示・反復ナビゲーションを実現するシステムを提案するものである。

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。

Xu Yang, Gady Agam2026-03-10💻 cs