In-Context Reinforcement Learning for Tool Use in Large Language Models

この論文は、教師あり微調整(SFT)を不要とし、ロールアウト段階でのインコンテキスト例を段階的に削減することでツール使用を学習させる「インコンテキスト強化学習(ICRL)」を提案し、従来の手法に比べてデータ効率とスケーラビリティを向上させつつ最先端の性能を達成したことを示しています。

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標(SICS)、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

この論文は、生物学的推論におけるプロセス報酬モデルの信頼性を高めるため、自己一致と近傍一致の二重合意に基づいてノイズの多い弱い教師信号を選別し、戦略的なデータキュレーションを通じて専門家の完全な注釈なしで堅牢なモデルを訓練する「DC-W2S」フレームワークを提案しています。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

本論文は、検索エンジンにインデックスされていない情報(非インデックス情報)の探索という新たな課題を定義し、初のベンチマーク「UIS-QA」と、効率的なマルチエージェントフレームワーク「UIS-Digger」を提案することで、現在の検索エージェントの限界を克服し、包括的な情報探索システムの発展に寄与するものです。

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

この論文は、大脳・橋・小脳という神経科学に着想を得た三層アーキテクチャを採用し、計算効率とモジュール性を向上させながら、LIBERO ベンチマークで 99.0% の高い成功率を達成する新しいビジョン・言語・アクションモデル「SaiVLA-0」を提案する概念とプロトコルの論文です。

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

この論文は、多様な人間の選好における不一致を考慮し、再学習なしで推論時にリスク制約付きデコーディングを用いて分布ロバストな意思決定を行う「DARC」という新しいアライメント手法を提案し、平均性能を維持しつつ不一致や尾部リスクを低減できることを示しています。

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

この論文は、LLM が外部知識を逐次的に検索・蓄積しながら論理推論を行う「段階的知識発掘」フレームワークを提案し、StrategyQA データセットにおいて約 10B パラメータ規模のモデルで競合を凌ぐ 78.17% の精度を達成し、オープンドメインの複雑な暗黙的質問応答における新たな SOTA を確立したことを報告しています。

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

本論文は、自動車のソフトウェアシステム検証において、1D-CNN と GRU を組み合わせたハイブリッド深層学習モデルと説明可能 AI 技術を統合し、故障の検出・特定・局所化を可能にするだけでなく、予測の根拠を解釈可能にすることで、リアルタイムの安全クリティカルな応用における信頼性とモデル適応性を向上させる手法を提案するものである。

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

この論文は、作業指示書やセンサーデータ、故障知識といった断片的な異種データを統合し、構造化された検証ループを通じて根拠に基づいた説明と助言を生成する「Condition Insight Agent」という意思決定支援フレームワークを提案し、その産業現場での実用性と信頼性を示しています。

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

この論文は、CODI フレームワークを用いた連続的な思考連鎖(Continuous CoT)が、標準的な教師あり微調整よりも低リソース言語やゼロショット設定において多言語推論能力を大幅に向上させ、かつ推論経路を最大 50 倍圧縮する効率的な手法であることを示しています。

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

本論文は、常時稼働型のエンドツーエンドフルデュプレックス音声対話モデルの隠れ表現が話者識別情報を漏洩することを示し、ストリーミング匿名化手法(Anon-W2F および Anon-W2W)を提案することで、話者プライバシーを大幅に保護しつつ低遅延な応答を維持できることを実証しています。

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

本論文は、データの不均衡を解決するためにデータアップサンプリングとカリキュラム学習を組み合わせた戦略を採用し、34 の欧州言語(特にバルト・フィン・ウゴル・スラブ諸語)における言語的公平性と性能を大幅に向上させた、300 億パラメータのオープンウェイト大規模言語モデル「TildeOpen LLM」を提案するものである。

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

本論文は、長尾分布を持つマルチモーダルデータに対して、サンプルの局所分布に応じた動的な温度スケジューリングとマージンスケジューリングを導入し、情報対照損失と最大マージン手法を統合することで、画像・言語タスクにおいて最先端の性能を達成する「MM-TS」という手法を提案しています。

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

本論文は、従来の平均値推定に偏った回帰ベンチマークの限界を指摘し、確率回帰の性能評価に連続ランク確率スコア(CRPS)などの適切なスコアリング則を導入し、分布回帰に適した TabPFN などのファウンデーションモデルの微調整やプロンプト制御を提唱するものである。

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

本論文は、解像度や視点、視野が異なる熱画像と可視画像の異種センサーを統合する際の問題を解決するため、空間対応性を維持し信頼性に基づいて適応的に重み付けを行う新しい融合手法(RGIF と RGMAF)を提案し、MMFW-UAV データセットを用いた実験で無人航空機(UAV)の検出性能を大幅に向上させることを実証しています。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

本論文は、非同期フェデレーテッドラーニングにおける勾配の古さ(staleness)の影響をより正確に捉えるため、従来のユークリッド距離に代わる多様な距離指標を統合し、その集約プロセスへの適用が異質なクライアントや非 IID データ環境下での収束性やモデル性能に与える影響を評価した研究である。

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG