CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

この論文は、デモンストレーション学習における実行の変動への適応性を高めるため、状態遷移パターンを学習して注意機構を調整する「Cross-State Transition Attention(STA)」メカニズムと時間的マスキングを組み合わせ、シミュレーション評価において既存の手法を大幅に上回る性能を示した新しいトランスフォーマーアーキテクチャ「CroSTAta」を提案するものである。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

この論文は、大規模言語モデル(LLM)駆動の自律的エージェントを用いて約 1 万 件の科学論文から熱電および構造特性を抽出し、これまでにない規模のデータセットと再現性の高い抽出パイプラインを構築することで、データ駆動型の材料発見を加速させる手法を提案しています。

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

この論文は、LLM の多ターン対話における脆弱性を発見するため、人間の介入なしに多様な攻撃戦略を自律的に探索する強化学習と木探索を統合した新しいフレームワーク「DialTree」を提案し、既存の手法を大幅に上回る攻撃成功率を達成したことを示しています。

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

この論文は、ミニバッチ・最適輸送とタスク固有の正則化、および教師あり情報の統合を通じて、既存の離散法やニューラルネットワーク手法の限界を克服し、ドメイン適応などの分野で最先端の性能を達成するスケーラブルかつ正則化されたワルシュタイン・バロセンター計算手法を提案しています。

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

本論文は、大規模マルチモーダルモデルをモジュール単位で分解し、SoC 内の最適なアクセラレータに動的に割り当てるハードウェア・ソフトウェア協調設計フレームワーク「NANOMIND」を提案し、バッテリー駆動の小型デバイス上で高効率かつ低消費電力なオンデバイス推論を実現したことを示しています。

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Deliberative Dynamics and Value Alignment in LLM Debates

この論文は、Reddit の「Am I the Asshole」コミュニティの事例を用いて大規模言語モデル(LLM)間の議論を分析し、同期・ラウンドロビンといった対話プロトコルやモデルの種類によって、意見の修正率や価値観の優先順位、および順序効果への反応に顕著な差異が生じることを明らかにしています。

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

本論文は、マルチモーダル推論モデルにおける浅い層の知覚バイアスと深い層の推論ドリフトという二つの失敗モードを特定し、学習不要の軽量プラグイン「Functional Head Identification and Class-Conditioned Rescaling」を用いて層間での注意配分を適応的に再調整することで、再学習やアーキテクチャ変更なしに推論の一貫性と視覚的忠実度を向上させる手法を提案しています。

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

本論文は、視覚言語行動(VLA)モデルに対して、少量のデータ汚染と視覚トリガーを用いて、タスク性能を維持したまま特定の安全上重要な動作を強制的に実行させる「DropVLA」と呼ばれる、動作レベルのバックドア攻撃手法を提案し、その物理世界での有効性を検証したものである。

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

本論文は、オフラインデータセットで学習された潜在空間の世界モデルとモデル予測制御(MPC)を組み合わせ、人間のデモンストレーションなしで物理的接触を活用したヒューマノイドロボットのリアルタイムかつロバストな動作計画を実現するフレームワークを提案しています。

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

この論文は、基盤モデルの高度な推論能力を活用して自然言語から報酬機械を自動生成し、強化学習における報酬設計の課題を解決するとともに、タスク間でのゼロショット汎化を実現する「ARM-FM」というフレームワークを提案しています。

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

この論文は、市場環境に応じてグラフ構造を適応的に変化させ、価格ショックや流動性凍結など 4 つの異なる異常メカニズムを専門家のネットワークで分解・解釈可能にする新たなフレームワークを提案し、金融ネットワークにおける異常検知の精度と説明可能性を大幅に向上させることを示しています。

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本論文は、音声と視覚の連続学習におけるモダリティの干渉を解決するため、マルチモーダルなサンプル選択と衝突に基づくリハーサル機構を組み合わせた新しいフレームワークを提案し、音声誘導型の連続オーディオ・ビジュアルセグメンテーションタスクにおける性能向上を実証しています。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

本論文は、列の置換不変性を構造的な事前知識としてエンコードする強化学習手法「Permutation Relative Policy Optimization (PRPO)」を提案し、これにより大規模言語モデルの潜在的な数値推論能力を活性化させ、少量の教師信号やゼロショット設定でも大規模モデルを上回る表形式データ予測を実現することを示しています。

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

本論文は、自律走行の知覚タスクにおける合成データの有用性を検証し、3D 資産を駆使して多視点のコーナーケースを大規模に生成する新たなフレームワーク「Dream4Drive」と大規模 3D アセットデータセット「DriveObj3D」を提案し、下流の知覚モデルの性能向上を実証しています。

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

本論文は、非専門家でも自然言語で分析意図を伝え、構造化されたリスク証拠を検証し、追跡可能な専門家スタイルの推論を得られるよう、ルール抽象化・証拠スコアリング・専門家風正当化の 3 つの役割を統合した人間中心のマルチエージェントシステム「HCLA」を提案し、暗号資産取引の異常検知において、ブラックボックスモデルの解釈ではなく、規制や調査判断に整合する追跡可能な推論プロセスの再構築を通じて、説明可能性を超えた説明責任と透明性の実現を目指すものである。

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

本論文は、自己教師あり学習に基づくビジョン基盤モデル DINOv2 を用いたトランスフォーマーフレームワーク「CountFormer」を提案し、例示なしの物体数え上げにおいて視覚的反復や構造の学習がどのように改善されるかを検証し、FSC-147 ベンチマークで競争力のある性能を示すとともに、表現の質が数え上げ精度に重要であることを明らかにしています。

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

この論文は、言語 3D ガウススプラッティングメモリを活用して、多モーダルなオープンボキャブラリー目標クエリと複数目標の視覚ナビゲーションを効率的に実現する「LagMemo」を提案し、新規に作成した GOAT-Core データセットを用いた実験で最先端の手法を大幅に上回る性能を示したことを報告しています。

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs