InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

この論文は、手首の関節座標と物体のバウンディングボックスというスパースな運動ガイダンス、物体ストレスアテンション機構、そしてマルチタスク補助学習戦略を組み合わせることで、物理的に整合性が高く制御可能な人間 - 物体相互作用(HOI)ビデオ生成を実現する「DISPLAY」というフレームワークを提案しています。

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

この論文は、GPS 非依存環境における 5 種類の協調局所化手法(CCL、DCL、StCL、CI、Standard-CL)を ROS 環境で比較評価し、StCL や Standard-CL は精度が高いもののフィルタの一貫性に問題があり、DCL は頑健性が高く、CI は精度と一貫性のバランスに優れているなど、各手法のトレードオフを明らかにしたものである。

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

本論文は、スポーツの空間的知能を評価する初の大規模データセット「CourtSI」とベンチマーク「CourtSI-Bench」を提案し、既存の視覚言語モデルの空間認識能力の限界を明らかにするとともに、CourtSI によるファインチューニングがモデルの精度向上と汎化性能の改善に寄与することを示しています。

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

本論文は、ゲーム理論モデルとシミュレーションを用いて、非協力的な環境における 802.11 の MAC プロトコル(DCF および 802.11e)がシステム全体のパフォーマンスを低下させる望ましくないナッシュ均衡をもたらすことを示し、チャネル資源の割り当てとノードの送信戦略を独立させることで、より高いスループットを実現する理想的な MAC プロトコルが可能であることを論じています。

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

この論文は、エンタープライズネットワークにおける接続パターンに基づいてホストを役割分類し、ネットワーク管理の効率化や侵入検知の精度向上に貢献する 2 つのアルゴリズムを提案し、実機環境での検証により、ホスト数を大幅に削減しつつ論理的なネットワーク構造を反映したグループ化が可能であることを示しています。

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

本論文は、大規模言語モデルの埋め込みと視覚誘導知識アダプタ、および硬い負例合成メカニズムを活用して、生成モデルに比べて推論遅延を約 100 倍削減しつつ、オープンドメイン視覚実体認識タスクで高い性能を達成する効率的な対照学習ベースライン「WikiCLIP」を提案するものです。

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

本論文は、点群再構成や生成における標準的な損失関数であるチャマファ距離の最適化が、局所的な正則化では解決できない勾配構造上の欠陥により「最適化しない場合よりも悪い結果」をもたらす「崩壊」を引き起こすことを示し、これを抑制するには局所領域を超えた非局所的な結合(グローバルな結合)が不可欠であることを明らかにした。

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

この論文は、関節角度に基づく擬似画像表現とトークン単位の遅延相互作用(MaxSim)を組み合わせることで、既存の手法が抱える細粒度対応の欠如や解釈性の低さを克服し、テキストと 3 次元人間の動きの間の高精度かつ解釈可能な検索を実現する手法を提案しています。

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

この論文は、注釈付きの CT データと注釈なしのインターベンショナル CBCT データを用いて、マージン・ディスパリティ・ディスクリパンシー(MDD)の最適化枠組みを再定式化した新しい教師なしドメイン適応フレームワークを提案し、肝臓セグメンテーションの性能を向上させることを示しています。

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

この論文は、遅延相互作用型検索モデルにおけるトークンプルーニングを埋め込み空間のボロノイ細胞推定問題として定式化し、幾何学的な原理に基づいてインデックスサイズを削減しつつ検索品質を維持する新たな枠組みを提案しています。

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

この論文では、専門家と非専門家の診断間の不一致に基づいて「スライドの難易度(WSD)」を定義し、それをマルチタスク学習や重み付き損失関数に組み込むことで、前立腺がんのグレアス分類における多实例学習(MIL)の性能、特に高悪性度のケースでの精度向上を実現する手法を提案しています。

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

この論文は、物理的に矛盾するアーティファクトを排除し、動的な実行可能性と接触イベントの正確な再現を確保するために、剛体ダイナミクスと接触相補性制約を明示的に組み込んだ「KinoDynamic Motion Retargeting (KDMR)」フレームワークを提案し、これにより下流の制御ポリシーの学習効率と歩行安定性が大幅に向上することを示しています。

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

Tetris is Hard with Just One Piece Type

この論文は、特定の回転システム下で Tetris のクリアや生存問題が、O 型のテトロミノを除くすべてのテトロミノ(I 型を含む)の単一ピースタイプに制限された場合でも NP 困難であることを証明し、I 型のみに関する 23 年前の予想を否定するとともに、ドミノや特定の条件下の 1×k ピースについては多項式時間アルゴリズムを構築したことを示しています。

MIT Hardness Group, Josh Brunner, Erik D. Demaine, Della Hendrickson, Jeffery Li2026-03-11💻 cs

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

本論文は、推論時の姿勢推定誤差を「レンダリングと比較(ReCo)」モジュールで補正し、長期シーンの処理を可能にするハイブリッド KV キャッシュ圧縮戦略を備えた、姿勢や内部パラメータの有無を問わない自己回帰型フィードフォワードガウススプラッティングモデル「ReCoSplat」を提案するものである。

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

TiPToP は、事前学習された視覚基盤モデルとタスク・モーションプランナーを組み合わせるモジュール式オープンボキャブラリシステムであり、ロボットデータを一切必要とせず、RGB 画像と自然言語指示から多段階の操作タスクを解決し、350 時間の実証データで微調整された VLA モデルと同等かそれ以上の性能を発揮します。

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs

Agent based decision making for Integrated Air Defense system

この論文は、信念・欲求・意図(BDI)アーキテクチャとメタレベル計画推論を用いた自律型エージェントを提案し、ネットワーク中心戦に対応する統合防空システムにおける目標検出、脅威評価、兵器割り当てなどの指揮統制(C2)機能を人手なしで実行する意思決定アルゴリズムを提示しています。

Sumanta Kumar Das, Sumant Mukherjee2026-03-10💻 cs