Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

本論文は、人間の研究者の基礎論文を基に仮説立案から実験、論文執筆までを自律的に行う「Jr. AI Scientist」を開発し、その科学的貢献と評価結果を報告するとともに、現在の AI 科学者システムが抱えるリスクや限界を包括的に分析したものである。

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

本論文は、明示的および暗黙的なヘイトスピーチの検出において、少量の例から得られる「HatePrototypes(クラスレベルのベクトル表現)」を用いることで、従来の継続的ファインチューニングなしにタスク間での転移学習やパラメータ不要の早期退出を可能にし、効率的かつ解釈可能なモデリングを実現することを示しています。

Irina Proskurina, Marc-Antoine Carpentier, Julien Velcin2026-03-10💬 cs.CL

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

本論文は、オンライン議論を中断または方向転換させる「クリティカルな介入」を検出するための初の注釈付きフランス語コーパス「SPOT」を構築し、文脈メタデータを活用した微調整エンコーダーモデルがプロンプト型大規模言語モデルを上回る性能を示すことを実証したものです。

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe Cointet2026-03-10💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

この論文は、エージェント型ソフトウェアシステムの意思決定過程を構造的に解析する「Graphectory」を導入し、その分析に基づいて実行中のエージェントをリアルタイムで監視・介入させることで、問題解決率の向上と実行経路の効率化を実現する手法を提案しています。

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand2026-03-10💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

本論文は、事前学習済みデコーダ型言語モデルに「プランナーによる潜在ワークスペース」と「同期マルチストリーム出力プロトコル」を組み合わせた「並列デコーダ・トランスフォーマ(PDT)」を提案し、外部のオーケストレーションに依存せず、モデル内部で並列タスク分解と生成の同期を可能にする新しいアーキテクチャを示しています。

Logan Robbins2026-03-10💬 cs.CL

CompanionCast: Toward Social Collaboration with Multi-Agent Systems in Shared Experiences

本論文は、スポーツ観戦などの共有体験において、単一のAIではなく複数の専門エージェントを協調させる「CompanionCast」フレームワークを提案し、その実証研究を通じて社会的存在感や感情の共有を向上させることを示しています。

Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah Hester2026-03-10💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

本論文は、LLM エージェントの事前学習後の適応を「エージェント側」と「ツール側」の 4 つのパラダイムに分類する統一的な枠組みを提示し、事後学習、記憶、スキルに関する研究を包括的にレビューするとともに、そのトレードオフや評価手法、および将来の課題を論じています。

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

この論文は、Swin トランスフォーマーとシーケンス・ツー・シーケンス言語デコーダを統合し、2 段階のトレーニング戦略を採用することで、作物病害の視覚的質問応答において高い精度と説明可能性を達成する軽量なマルチタスク視覚言語フレームワークを提案しています。

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench は、IBM の自然会話フレームワークに基づき、LLM のトピックやタスクではなく会話の形式と構造(基本応答、RAG 活用、複雑な要求など)に焦点を当てた新しい評価ベンチマークを提案し、モデルの会話能力を理論的に評価する軽量かつ拡張可能な枠組みを提供する。

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

本論文は、マルチエージェントシステムの設計と評価を革新するため、全体最適化された関数呼び出し強化学習フレームワーク「MAS-Orchestra」と、タスク構造に基づく厳密なベンチマーク「MASBENCH」を提案し、タスク特性に応じたマルチエージェントの真の価値と効率性を明らかにするものです。

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

この論文は、金融サービスにおけるツール使用型 LLM エージェントの監査再現性を保証するため、決定性と正確性の独立した測定を可能にする「決定性忠実性保証ハース(DFAH)」フレームワークと、3 つの金融ベンチマークを提案し、決定性と正確性の間に相関がないことを実証しています。

Raffi Khatchadourian2026-03-10💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

この論文は、認知行動療法に偏りがちな既存の手法の限界を克服するため、感情焦点療法(EFT)の原理に基づき、8 つの専門エージェントによる多段階思考プロセスと大規模な指示調整データセットを活用して、共感的深さと構造的専門性を備えた新しいメンタルヘルス支援 LLM「EFT-LLM」を提案し、その有効性を検証したものである。

Lanqing Du, Yunong Li, YuJie Long, Shihong Chen2026-03-10💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

この論文は、大規模なサイバーセキュリティ特化データとエージェントによる拡張パイプラインを活用して訓練されたオープンソースの一般化サイバーセキュリティアシスタント「RedSage」を開発し、その専門知識と汎用推論能力の向上を実証的に示すとともに、評価用ベンチマーク「RedSage-Bench」を公開したことを報告しています。

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Mem-T は、長期にわたる記憶操作におけるスパースな報酬という課題を解決するため、木構造のバックプロパゲーションとヒンズサイト・クレジット割り当てを用いて段階的な密な報酬を生成する強化学習フレームワーク「MoT-GRPO」を提案し、記憶管理と検索の両方を最適化する自律型記憶エージェントを実現しています。

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan Zhang2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

シュワルツの高次価値カテゴリーは、単一の文から人間の価値を検出するタスクにおいて、厳密な階層的ゲートリングやスタンドアロンのコンパクト LLM としてよりも、閾値調整やアンサンブルによる校正、あるいは帰納的バイアスとして活用する方が、限られた計算資源下でより効果的であることが示されました。

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG