A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

この論文は、Swin トランスフォーマーとシーケンス・ツー・シーケンス言語デコーダを統合し、2 段階のトレーニング戦略を採用することで、作物病害の視覚的質問応答において高い精度と説明可能性を達成する軽量なマルチタスク視覚言語フレームワークを提案しています。

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench は、IBM の自然会話フレームワークに基づき、LLM のトピックやタスクではなく会話の形式と構造(基本応答、RAG 活用、複雑な要求など)に焦点を当てた新しい評価ベンチマークを提案し、モデルの会話能力を理論的に評価する軽量かつ拡張可能な枠組みを提供する。

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

本論文は、マルチエージェントシステムの設計と評価を革新するため、全体最適化された関数呼び出し強化学習フレームワーク「MAS-Orchestra」と、タスク構造に基づく厳密なベンチマーク「MASBENCH」を提案し、タスク特性に応じたマルチエージェントの真の価値と効率性を明らかにするものです。

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

この論文は、金融サービスにおけるツール使用型 LLM エージェントの監査再現性を保証するため、決定性と正確性の独立した測定を可能にする「決定性忠実性保証ハース(DFAH)」フレームワークと、3 つの金融ベンチマークを提案し、決定性と正確性の間に相関がないことを実証しています。

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

この論文は、認知行動療法に偏りがちな既存の手法の限界を克服するため、感情焦点療法(EFT)の原理に基づき、8 つの専門エージェントによる多段階思考プロセスと大規模な指示調整データセットを活用して、共感的深さと構造的専門性を備えた新しいメンタルヘルス支援 LLM「EFT-LLM」を提案し、その有効性を検証したものである。

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

この論文は、大規模なサイバーセキュリティ特化データとエージェントによる拡張パイプラインを活用して訓練されたオープンソースの一般化サイバーセキュリティアシスタント「RedSage」を開発し、その専門知識と汎用推論能力の向上を実証的に示すとともに、評価用ベンチマーク「RedSage-Bench」を公開したことを報告しています。

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Mem-T は、長期にわたる記憶操作におけるスパースな報酬という課題を解決するため、木構造のバックプロパゲーションとヒンズサイト・クレジット割り当てを用いて段階的な密な報酬を生成する強化学習フレームワーク「MoT-GRPO」を提案し、記憶管理と検索の両方を最適化する自律型記憶エージェントを実現しています。

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

シュワルツの高次価値カテゴリーは、単一の文から人間の価値を検出するタスクにおいて、厳密な階層的ゲートリングやスタンドアロンのコンパクト LLM としてよりも、閾値調整やアンサンブルによる校正、あるいは帰納的バイアスとして活用する方が、限られた計算資源下でより効果的であることが示されました。

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

本論文は、LLM 駆動のマルチエージェントシステムにおける記憶の均質化と情報過多という課題を解決するため、エージェント固有の文脈に合わせたコンパクトな潜在記憶を生成する学習可能なフレームワーク「LatentMem」と、その最適化手法「LMPO」を提案し、既存のアーキテクチャを改変せずにも大幅な性能向上を実現したことを示しています。

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

この論文は、自然言語処理を用いて要件定義から構造的ネットワークを抽出し、分子統合タスクを用いた実験により、そのスペクトル指標が統合工数を 0.95 以上の相関で予測できることを実証し、要件段階の複雑性評価における新たな手法を確立したものである。

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

この論文は、LLM の内部層間の不一致を検出するメトリクスを用いて推論時にハルシネーションを抑制する新しいデコーディングアルゴリズム「CoCoA」を提案し、モデルの再学習なしに事実性の高い出力を実現することを示しています。

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

この論文は、意味的な順序手がかりが乏しいオランダの自由情報開示文書(WOO)のページ順序復元タスクにおいて、セグメント長が長い場合のシーケンス・ツー・シーケンス変換器の一般化失敗やカリキュラム学習の限界を明らかにし、モデルの専門化によって長文書での性能を大幅に向上させることを示しています。

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

この論文は、大規模な回答データに依存せず、質問項目のセマンティック構造を自然言語処理技術を用いて分析・クラスタリングすることで、心理尺度の項目数を平均 60.5% 削減しつつも元の構成概念や心理計測特性を維持する効率的な簡素化フレームワークを提案し、その有効性を複数の尺度で実証したものである。

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

この論文は、コード生成が強化学習よりも信頼性高く進展した理由を、コードが持つ密で局所的かつ検証可能なフィードバックという情報構造に求め、計算問題の「表現可能性」「計算可能性」「学習可能性」の 3 特性を階層的に整理し、機械学習の進展の上限が単なるモデルの規模ではなく、タスク自体の学習可能性に依存することを示唆しています。

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

本論文は、LLM の微調整データセットにおけるトークンレベルのノイズを「推論の重要性」「知識の新規性」「タスクの関連性」という 3 つの属性に分解して評価し、ノイズとなるトークンの勾配をマスクすることで微調整後のモデル性能を最大 13.7% 向上させる、説明可能なトークンレベルノイズフィルタリングフレームワーク「XTF」を提案しています。

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

この論文は、人間のエピソード記憶メカニズムに着想を得て、意味の要約(Semantic Gist)の抽出と進化、多次元知識グラフ、および拡散型検索を組み合わせた新しい RAG フレームワーク「CogitoRAG」を提案し、複雑な知識統合や推論において既存の最先端手法を上回る性能を実証したものである。

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL