LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

本論文は、長編動画の質問応答において形式検証に基づく神経記号アプローチの遅延オーバーヘッドを、CLIP による適応的サンプリングとバッチ処理により劇的に削減しつつ、時間的複雑なクエリに対する精度向上を維持する「LE-NeuS」と呼ばれるフレームワークを提案するものである。

Shawn Liang, Sahil Shah, Chengwei Zhou + 5 more2026-03-02💻 cs

No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency

この論文は、RGB-X センサー間の較正を不要とし、RGB のみからの COLMAP と提案されたマッチング・点の高密度化・3D ガウススプラッティングによる統合手法によって、大規模な実世界 RGB-X データ収集のボトルネックを解消する初のクロスセンサー視点合成研究を提示しています。

Cho-Ying Wu, Zixun Huang, Xinyu Huang + 1 more2026-03-02💻 cs

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

本論文は、自律走行における鳥瞰図セマンティックセグメンテーションの課題を解決するため、逆ビュー変換ネットワークを用いたサイクル整合性を学習時に正則化として導入し、推論コストを増加させることなく既存のビュー変換モデルの性能を向上させる「CycleBEV」を提案しています。

Jeongbin Hong, Dooseop Choi, Taeg-Hyun An + 2 more2026-03-02🤖 cs.AI

Egocentric Visibility-Aware Human Pose Estimation

本論文は、頭部装着型デバイスを用いた egocentric 人体ポーズ推定における「見えない関節点」の問題を解決するため、可視性ラベルを備えた大規模データセット「Eva-3M」を新たに構築し、可視性を明示的に考慮した新しい推定手法「EvaPose」を提案することで、両方の主要データセットにおいて最先端の性能を達成したことを示しています。

Peng Dai, Yu Zhang, Yiqiang Feng + 2 more2026-03-02💻 cs

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

この論文は、多様な点群データから構造化された 3D 建物の抽象化を可能にする新しい生成フレームワーク「BuildAnyPoint」を提案し、拡散モデルによる分布回復と自己回帰的なメッシュ生成を組み合わせた「Loca-DiT」アーキテクチャにより、既存手法を大幅に上回る高品質な建物の再構成を実現することを示しています。

Tongyan Hua, Haoran Gong, Yuan Liu + 3 more2026-03-02💻 cs

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

本論文は、LLM による意味分解と QR 直交化を用いて「過去の比較」軸のみを標的とするトレーニング不要の推論時制御フレームワーク「SDLS」を提案し、放射線報告生成における過去の所見に根拠のない幻覚を抑制しながら臨床的精度を向上させることを示しています。

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

本論文は、CLIP の埋め込みと自然言語記述を統合した新しいフレームワーク「VL-WS」を提案し、これにより多様な農業環境やデータソースにわたる作物と雑草のセグメンテーションにおいて、既存の CNN ベースラインを大幅に上回る汎化性能と精度を達成したことを示しています。

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop は、MLLM の浅い層をバイパスして視覚トークンを融合開始点で注入し、凹型ピラミッド剪定と早期終了メカニズムを用いて視覚トークンの 90% を削減しながら性能を維持し、トレーニングを 1.72 倍高速化する新しい階層的トークン削減フレームワークを提案します。

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

EgoGraph は、複数日にわたる超長尺の第一人称視点動画における従来の断片的な処理の限界を克服し、学習不要で動的に知識グラフを構築することで、長期的なエンティティ間の依存関係と安定した記憶を可能にし、長期的な動画質問応答において最先端の性能を実現するフレームワークです。

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

本論文は、統一マルチモーダル大規模言語モデルがテキスト出力では優れた推論能力を示す一方で、画像出力では意味的等価性を維持できず、これは生成の忠実度の欠如ではなく、クロスモーダルな意味の整合性の崩壊に起因することを、新たに提案した評価ベンチマーク「VGUBench」を用いて実証したものである。

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

本論文は、2D 視覚入力だけでなく、将来の 3D 空間幾何学知識と 4D 時空履歴表現を明示的に統合することで、ロボット操作タスクにおける空間推論と長期計画能力を飛躍的に向上させるオープンソースのビジョン・ランゲージ・アクションモデル「StemVLA」を提案し、CALVIN ベンチマークで最先端の性能を達成したことを報告しています。

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs