SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

本論文は、再帰的自己改善におけるアライメントのドリフトを防止し、コード生成や推論タスクでの性能向上を可能にするため、目標ドリフト指数、制約保持チェック、回帰リスク定量化の 3 つのセーフガードを組み合わせた実用的なフレームワーク「SAHOO」を提案するものである。

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-09🤖 cs.AI

Transparent AI for Mathematics: Transformer-Based Large Language Models for Mathematical Entity Relationship Extraction with XAI

この論文は、数式テキストからオペランドと演算子の関係を抽出するタスクにトランスフォーマーベースのモデル(特に BERT)を適用し、SHAP による説明可能性を統合することで、99.39% の高精度を達成しつつ透明性を高めた数学的エンティティ関係抽出の解釈可能なフレームワークを提案しています。

Tanjim Taharat Aurpa2026-03-09💬 cs.CL

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

この論文は、新しい義務的モダリティを明示的に符号化したワソン選択課題データセットを用いて大規模言語モデルを評価した結果、人間と同様に義務的ルールにおいて推論能力が高く、一致バイアスに似た誤りパターンを示すことを明らかにしました。

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada2026-03-09💬 cs.CL

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

この論文は、IELTS 英作文の自動採点において、エンコーダー微調整、プロンプティング、指示微調整、RAG、DPO などの主要な LLM ベースのアプローチを包括的に比較し、k-SFT と RAG を統合した構成が 93% の F1 スコアを達成して最も優れた性能を示すことを実証しています。

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le2026-03-09💬 cs.CL

Abductive Reasoning with Syllogistic Forms in Large Language Models

本論文は、大規模言語モデル(LLM)が演繹だけでなく帰納的推論(アブダクション)においても人間と同様のバイアスを示すかどうかを、三段論法形式のデータセットを変換して検証し、文脈に即した推論の重要性を明らかにするものである。

Hirohiko Abe, Risako Ando, Takanobu Morishita Kentaro Ozeki, Koji Mineshima, Mitsuhiro Okada2026-03-09🤖 cs.AI

PONTE: Personalized Orchestration for Natural Language Trustworthy Explanations

この論文は、ユーザーの専門性や目標に応じた信頼性の高い説明を生成するために、LLM のハルシネーションを防ぎつつフィードバックループで個人化を実現する XAI 枠組み「PONTE」を提案し、医療・金融分野での評価でその有効性を示したものである。

Vittoria Vineis, Matteo Silvestri, Lorenzo Antonelli, Filippo Betello, Gabriele Tolomei2026-03-09🤖 cs.AI

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

この論文は、単一パス検索の限界を克服し、反復的なツール呼び出しループとマルチモーダル検索を統合したエージェントフレームワーク「BRTR」を提案し、大規模な企業用スプレッドシートの理解と編集において最先端の性能を達成したことを報告しています。

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

この論文は、SemEval-2026 の政治的回避検出タスクにおける KCLarity チームの取り組みとして、直接ラベル予測と階層構造に基づく間接予測の 2 つの手法、およびゼロショット推論を含む複数のモデルアプローチを比較評価し、エンコーダーモデルとゼロショットモデルのそれぞれで異なる性能特性が観測されたことを報告しています。

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

この論文は、医師や看護師など222名の病院職員から収集した質問に基づき、MIMIC-III と eICU のオープンソースデータベースを基に作成され、複雑な医療クエリや時間表現の理解、回答不可能な質問の判別といった実用的な課題に挑む電子カルテ向けテキスト -SQL ベンチマーク「EHRSQL」を提案するものです。

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

INMS: Memory Sharing for Large Language Model based Agents

LLM ベースのエージェントが孤立した動作や静的なデータベースに依存する課題を解決するため、リアルタイムなメモリ共有プールを構築し、エージェント間の対話的な知識交換と集合的な自己向上を実現する非同期インタラクションフレームワーク「INMS」を提案し、その有効性を複数のデータセットで実証した。

Hang Gao, Yongfeng Zhang2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

本論文は、外部知識を参照するリトリーバル・オーグメント・ジェネレーション(RAG)機能を持つノートブックLM が、その内部モデルであるジェミニ 2.0 Flash を上回る膵臓癌の病期分類精度を達成し、RAG 技術が臨床診断における LLM の精度向上と透明性確保に有効であることを示したものである。

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成(LAG)フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

この論文は、LLM と知識グラフを用いて気候変動関連ニュースの科学的正確性を半自動で評価する手法を開発・評価したが、現状では大規模なメディア検証には不十分であり、FAIR な基盤知識の整備が不可欠であると結論付けています。

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

本論文は、クラウド環境における大規模で動的な仮想マシンスケジューリング問題(ODMBP)に対し、大規模言語モデルを活用して多様な戦略を発見・統合する階層的言語エージェント「MiCo」を提案し、1 万を超える仮想マシンを含む実データセットで 96.9% の競争率を達成する高い汎用性と実用性を示したものである。

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs