cs.CL 件の論文 | Gist.Science

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

COLD-Steer は、ラベル付き例からの勾配降下による表現変化を推論時に近似することで、従来の手法に比べて 50 倍少ないサンプル数で大規模言語モデルの振る舞いを効率的に制御するトレーニング不要なフレームワークです。

Kartik Sharma, Rakshit S. Trivedi2026-03-09🤖 cs.AI

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

この論文は、単一パス検索の限界を克服し、反復的なツール呼び出しループとマルチモーダル検索を統合したエージェントフレームワーク「BRTR」を提案し、大規模な企業用スプレッドシートの理解と編集において最先端の性能を達成したことを報告しています。

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

本論文は、対照学習を用いて音声と文脈表現を整合させることで、多言語・多方言の会話文脈を考慮した高精度な自動音声認識フレームワークを提案し、実世界のデータで認識品質を 5% 以上向上させたことを示しています。

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

この論文は、SemEval-2026 の政治的回避検出タスクにおける KCLarity チームの取り組みとして、直接ラベル予測と階層構造に基づく間接予測の 2 つの手法、およびゼロショット推論を含む複数のモデルアプローチを比較評価し、エンコーダーモデルとゼロショットモデルのそれぞれで異なる性能特性が観測されたことを報告しています。

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

この論文は、医師や看護師など222名の病院職員から収集した質問に基づき、MIMIC-III と eICU のオープンソースデータベースを基に作成され、複雑な医療クエリや時間表現の理解、回答不可能な質問の判別といった実用的な課題に挑む電子カルテ向けテキスト -SQL ベンチマーク「EHRSQL」を提案するものです。

Gyubok Lee, Hyeonji Hwang, Seongsu Bae + 6 more2026-03-06💻 cs

Large Language Models are Contrastive Reasoners

この論文は、単に「正解と誤答の両方を提示する」という対照的プロンプトを付加するだけで、大規模言語モデルの推論能力を飛躍的に向上させ、既存のゼロショットや数ショット手法を上回る性能を達成できることを示しています。

Liang Yao2026-03-06💻 cs

INMS: Memory Sharing for Large Language Model based Agents

LLM ベースのエージェントが孤立した動作や静的なデータベースに依存する課題を解決するため、リアルタイムなメモリ共有プールを構築し、エージェント間の対話的な知識交換と集合的な自己向上を実現する非同期インタラクションフレームワーク「INMS」を提案し、その有効性を複数のデータセットで実証した。

Hang Gao, Yongfeng Zhang2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

この論文は、類似性と多様性を同時に満たすベクトル検索問題（VRSD）が NP 完全であることを理論的に証明し、パラメータ不要のヒューリスティック手法を提案することで、既存の手法を上回る性能を実現することを示しています。

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Enhancing Pancreatic Cancer Staging with Large Language Models: The Role of Retrieval-Augmented Generation

本論文は、外部知識を参照するリトリーバル・オーグメント・ジェネレーション（RAG）機能を持つノートブックLM が、その内部モデルであるジェミニ 2.0 Flash を上回る膵臓癌の病期分類精度を達成し、RAG 技術が臨床診断における LLM の精度向上と透明性確保に有効であることを示したものである。

Hisashi Johno, Yuki Johno, Akitomo Amakawa + 9 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成（LAG）フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

この論文は、LLM と知識グラフを用いて気候変動関連ニュースの科学的正確性を半自動で評価する手法を開発・評価したが、現状では大規模なメディア検証には不十分であり、FAIR な基盤知識の整備が不可欠であると結論付けています。

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

本論文は、クラウド環境における大規模で動的な仮想マシンスケジューリング問題（ODMBP）に対し、大規模言語モデルを活用して多様な戦略を発見・統合する階層的言語エージェント「MiCo」を提案し、1 万を超える仮想マシンを含む実データセットで 96.9% の競争率を達成する高い汎用性と実用性を示したものである。

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

本論文は、因果推論における統計的落とし穴（例えば Simpson のパラドックスや選択バイアスなど）を LLM が克服できるかを厳密に評価するための新しいベンチマーク「CausalPitfalls」を提案し、その評価を通じて現在の LLM が統計的因果推論において重大な限界を抱えていることを明らかにしています。

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

本論文は、複雑な CLI 入力のモデル化におけるデータ不足を解消するため、文法制約と自己教師あり不可縮性信号を用いて Bash 実行挙動を捉える環境「ShIOEnv」を提案し、これにより収集した 210 万組のデータセットが従来の実行フリー手法を上回る精度でユーザー入力の挙動をモデル化できることを示しています。

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

この論文は、検索結果が矛盾・ノイズ・無効であるような状況における検索拡張言語モデルの推論能力を評価する新たなベンチマーク「SealQA」を提案し、最先端のモデルさえもそのような環境で著しく低い性能を示すことを明らかにしています。

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

この論文は、自然言語による時間的コンテキスト更新を意思決定プロセスと分離し、推論のみに基づくミドルウェア「LUCIFER」を通じて制御に直接関連する信号に変換する「シグナル契約」を提案し、捜索救助シナリオにおける安全性と情報収集効率の向上を実証したものである。

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

本論文は、日本の企業開示データ（EDINET）を用いて会計不正検出や収益予測などの高度な金融タスクを評価するオープンソースベンチマーク「EDINET-Bench」を提案し、最先端の LLM でも専門家の判断に迫る性能が得られていない現状を明らかにするとともに、より実務に近い環境での評価枠組みの必要性を提言しています。

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

本論文は、ジグソーパズルなどの新規タスクを用いた実験により、強微調整（RFT）が教師あり微調整（SFT）に比べて事前知識の保持に優れ、その理由が学習データ分布の方向性と大きさの違いにあることを示し、RFT が安定した継続学習に有効であることを提唱しています。

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

この論文は、スペイン語圏の言語的多様性と文化的多様性を反映した大規模言語モデル（LLM）の開発を促進するため、スペインおよびラテンアメリカの言語や方言を対象とした初のオープンソース評価リーダーボード「La Leaderboard」を提案し、その評価手法や環境負荷低減のための工夫について解説しています。

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

← 前へ次へ →