v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

RECODE: Reasoning Through Code Generation for Visual Question Answering

本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

本論文は、生成タスクにおいて従来のエキスパートマージ手法よりも優位性を示し、ルーターゲート値とエキスパート活性化ノルムを考慮した新たな剪定基準「REAP」を提案することで、大規模なSMoEモデルの50% 剪定においてもコード生成などのタスクでほぼ損失のない圧縮を実現することを明らかにしています。

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan Thangarasa2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本論文は、拡散ビジョモーターポリシーを基盤とした実世界強化学習フレームワーク「RL-100」を提案し、模倣学習と強化学習を統合して 1000 回の試行で 100% の成功率を達成し、人間を超える性能と高い汎用性・頑健性を示したことを報告しています。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

この論文は、離散的な人間 - 物体相互作用表現と自然言語を統合した新しいフレームワーク「SynHLMA」を提案し、可動部を持つ物体に対する言語指示に基づく一連の巧みな把持動作を生成・予測・補間することを可能にするものである。

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

この論文は、グラフ基礎モデルの発展に伴い未探索であったグラフドメイン逐次学習(Domain-IL)における catastrophic forgetting を、埋め込みのシフトと決定境界の逸脱を防ぐための知識の解離と保存を可能にする「GraphKeeper」を提案し、既存手法を大幅に上回る性能で達成したことを示しています。

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

この論文は、構造化正則化、ロバストな前処理、効率的な最適化を通じて過学習を抑制し、多クラス分類におけるロジスティック回帰に基づく再較正手法のバイアス・バリアンスのトレードオフを効果的に管理することで、既存の手法よりも大幅な精度向上を実現する手法を提案し、オープンソース実装を提供しています。

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis Bach2026-03-11🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

本論文は、時間系列基盤モデルのデータ価値評価において、従来の手法が抱える計算コストと時系列依存性の課題を解決するため、コンテキスト微調整と時間ブロック集約を活用した軽量かつ高精度な評価手法「LTSV」を提案し、その有効性を検証したものである。

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong Ng2026-03-11🤖 cs.AI

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

本論文は、医療教育における多輪対話と実体レベルの推論を可能にする新たなタスク「MEMR-Seg」と大規模データセット「MR-MedSeg」を提案し、誤差伝播を軽減する「判定・修正メカニズム」を備えた基線モデル「MediRound」を開発してその有効性を示したものである。

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

この論文は、事前学習済み時系列基盤モデル(TSFM)のインコンテキスト学習を活用し、微調整や従来の分類モデルの学習なしにサーボプレスモータのベアリング振動データを健康状態ごとに分類する手法を提案し、従来のカスタム AI 解決策を超えたスケーラブルな予知保全システムの実現可能性を示しています。

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng Feng2026-03-11🤖 cs.AI

Research and Prototyping Study of an LLM-Based Chatbot for Electromagnetic Simulations

この論文は、Google Gemini 2.0 Flash を活用したチャットボットと Python による自動化ワークフローを開発し、Gmsh と GetDP を用いて電磁場シミュレーションモデルの構築から求解、および結果の要約までを自動化することで、シミュレーション設定に要する時間を削減する手法を提案しています。

Albert Piwonski, Mirsad Hadžiefendic2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

本論文は、追加学習を必要とせず推論時に高信頼かつ多様な特徴を蓄積する適応的多様性キャッシュ(ADC)モジュールを提案し、VLM ベースの人間 - 物体相互作用(HOI)検出における長尾分布の偏りを効果的に軽減し、特に希少カテゴリの検出性能を向上させることを示しています。

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

本論文は、異なる VLA モデルや実環境への転移が可能なユニバーサルな物理的パッチ攻撃「UPA-RFAS」を提案し、視覚 - 言語 - 行動モデルが未知のアーキテクチャやシミュレーションから実世界への移行においても普遍的な脆弱性を持つことを実証しています。

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Multi-Agent Reinforcement Learning with Communication-Constrained Priors

この論文は、現実世界の通信制約下での協調学習の課題に対処するため、通信条件を統一的に記述する一般化モデルを学習の事前分布として活用し、損失あり・なしのメッセージの影響を双方向相互情報量推定器を用いて分離・定量化する新たなマルチエージェント強化学習フレームワークを提案し、その有効性を検証したものである。

Guang Yang, Tianpei Yang, Jingwen Qiao, Yanqing Wu, Jing Huo, Xingguo Chen, Yang Gao2026-03-11🤖 cs.AI