Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア(CCS)」を提案し、その有効性と理論的根拠を実証しています。

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

本論文は、制限された計算資源やプライバシー制約下でも実用的な産業環境で動作する、5 つの役割特化型エージェントと安全チェックアウディット、および適応的ステップ融合(ASF)を採用したマルチエージェント協調アシスタント「MICA」を提案し、その有効性をベンチマークと評価指標を用いて実証するものである。

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

この論文は、大規模視覚言語モデル(LVLM)が文脈的不整合下で物体認識に失敗する現象を「ORIC」フレームワークを用いて分析し、不整合な文脈における認識精度の低下を実証するとともに、視覚強化学習による微調整でモデルの信頼性を向上させる手法を提案しています。

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

本論文は、イベントカメラのバイナリ構造とフーリエ領域の高速相互相関を用いて処理遅延を 2.88ms に抑え、昼夜・室内外を問わず 3000 メートル以上で横逸脱誤差 15cm 未満のリアルタイム視覚教示・反復ナビゲーションを実現するシステムを提案するものである。

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

本論文は、3D ガウススプラッティングに基づく高忠実度メッシュ再構成のために、外部モデルに依存せず反射面にも頑健な材料感知最適化フレームワーク「GS-2M」を提案し、多視点フォトメトリック変動に基づく粗さ監視戦略を用いて最先端の手法と同等の精度を達成することを示しています。

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

本論文は、ビジョン・ファウンデーションモデルを教師として活用し、セマンティックセグメンテーションと深度推定を同時に行う効率的なドメイン適応型マルチタスク学習フレームワーク「FAMDA」を提案し、合成から実世界への転移や昼夜間適応において最先端の性能と軽量性を両立させることを示しています。

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本論文は、モデル量子化とアテンション疎化を統合し、マルチスケールな注目蒸留と第二次数疎アテンション再パラメトリゼーションを導入することで、HunyuanVideo-13B において既存の量子化手法を大幅に上回る画質を維持しつつ、ストレージを 3.68 倍、推論速度を 1.88 倍に改善する「QuantSparse」という動画生成トランスフォーマーの圧縮フレームワークを提案しています。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

本論文は、テキスト、音楽、先行モーションなど多様な入力に基づき、リクトファインフローと RAG モジュールを活用して、二人間の協調的なインタラクティブおよびリアクティブな 3D 運動を高速かつ高精度に生成する統合フレームワーク「DualFlow」を提案し、その性能を多角的なベンチマークで実証したものである。

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

本論文では、血流力学のナビエ - ストークス方程式に基づいて脈動信号が二次動的システムに従うことを理論的に示し、これを基にゼロ演算量の軸交換モジュール、適応的空間フィルタ、ゲート付き TCN を組み合わせた軽量かつ高精度な物理駆動型 rPPG モデル「PHASE-Net」を提案し、頭部運動や照明変化に対するロバスト性と実用性を両立させています。

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

本論文は、眼科における視力障害疾患の診断支援とバイアス評価を目的として、12 の疾患と 5 つの画像モダリティにまたがる大規模なマルチモーダルデータセット「LMOD+」と、24 種類の最先端マルチモーダル大規模言語モデルの包括的ベンチマークを提案し、その性能限界と将来の可能性を明らかにしたものである。

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

本論文は、自己回帰型動画拡散モデルにおいて、生成された動画の任意のフレームを任意の物体に対してインタラクティブにドラッグ操作し、潜空間のドリフトや文脈干渉を抑制するトレーニング不要な手法「DragStream」を提案し、ストリーミング型のドラッグ指向動画操作タスク「REVEL」を実現するものである。

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

本論文は、強化学習と自己ロールアウト機構を組み合わせることで、リアルタイムかつ高精度な運動制御を実現し、既存の拡散モデルに比べて大幅な遅延低減と高画質を両立する初の RL 強化型少量ステップ自己回帰動画生成モデル「AR-Drag」を提案するものである。

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

本論文は、2018 年から 2025 年にかけて脳 MRI 画像の異常検出に応用された教師なし深生成モデルに関する 33 件の研究を体系的にレビューし、その潜在的可能性と方法論的な課題、そして今後の臨床的有用性を高めるための新たな方向性を明らかにしたものである。

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本論文は、音声と視覚の連続学習におけるモダリティの干渉を解決するため、マルチモーダルなサンプル選択と衝突に基づくリハーサル機構を組み合わせた新しいフレームワークを提案し、音声誘導型の連続オーディオ・ビジュアルセグメンテーションタスクにおける性能向上を実証しています。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

本論文は、自律走行の知覚タスクにおける合成データの有用性を検証し、3D 資産を駆使して多視点のコーナーケースを大規模に生成する新たなフレームワーク「Dream4Drive」と大規模 3D アセットデータセット「DriveObj3D」を提案し、下流の知覚モデルの性能向上を実証しています。

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs