cs.CL 件の論文 | Gist.Science

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

この論文は、遠隔患者モニタリングで生成される膨大なデータを臨床スタッフが処理する課題を解決するため、自律型 AI エージェント「Sentinel」を開発し、従来の医師による監視を上回る感度とスケーラビリティで臨床的トリアージを可能にしたことを報告しています。

Exclusive Self Attention

この論文は、トークンの自己位置情報を排除して文脈モデルリングを強化する「排他的自己注意（XSA）」を提案し、大規模言語モデルにおいて標準的な自己注意よりも一貫して優れた性能を示すことを実証しています。

Shuangfei Zhai2026-03-11🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

本論文は、マルチモーダル大規模言語モデルにおけるテキスト画像入力時の性能低下（モダリティギャップ）を体系的に分析し、その原因が計算やフォーマットなどの「読解エラー」の増幅にあることを明らかにするとともに、モデル自身のテキスト推論履歴を用いた自己蒸留法によって画像入力時の精度を劇的に向上させる手法を提案するものです。

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

この論文は、大規模言語モデルが生物学的解決策よりも合成的な解決策を好むバイアスを持っていることを示し、PMC の論文に基づく少量のファインチューニングによってそのバイアスを是正し、生物学的アプローチへの志向性を高めることができることを実証しています。

Trent R Northen, Mingxun Wang2026-03-11💬 cs.CL

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

本論文は、従来の VAD 依存型パイプラインの制約を克服し、LLM の高度な対話能力を維持しながら双方向のリアルタイム音声対話を可能にする「DuplexCascade」という、マイクロターン最適化と制御トークンを活用した VAD 不要のストリーミング型音声対話システムを提案し、オープンソースの音声対話システムにおいて最先端の性能を達成したことを示しています。

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

本論文は、追加の学習やモデル更新を必要とせず、クエリを正と負の成分に分解して対照的な目的関数で埋め込みを最適化する「直接埋め込み最適化（DEO）」を提案し、否定や除外を含む検索タスクにおいて既存手法を上回る性能を達成したことを示しています。

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang2026-03-11💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

この論文は、LLM の論理的推論能力の向上が、推論、帰納、仮説形成を通じて AI の状況認識（自己認識や戦略的欺瞞など）を機械的に促進する「RAISE」フレームワークを提示し、現在の安全対策の限界を指摘するとともに、論理推論研究コミュニティに対し、この危険な軌道に対する具体的な安全策と責任を問うている。

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

この論文は、LLM の推論における感情の潜在的要因を解明し、感情バランスの取れた QA データセット「AURA-QA」を提案するとともに、感情条件付きの表現ドリフトを抑制する正則化フレームワークを導入することで、分布変化下およびドメイン内での読解タスクの性能向上を実現したことを示しています。

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

本論文は、音声トークンの統計的特性に特化した「SPAR-K」というスケジュール型交互早期終了フレームワークを提案し、推論コストを削減しつつ音声品質やタスク精度を維持する手法を提唱しています。

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

この論文は、クエリに応答するために重要な文を「留め置き（Leave-One-Out）」戦略で特定し、軽量なエンコーダのみトランスフォーマーを用いてコンテキストを効率的に圧縮する「LooComp」を提案し、高い推論速度とメモリ効率を維持しながら検索拡張生成の性能を向上させることを示しています。

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

本論文は、対照的デコーディングがオーディオ認識の欠落や不確実性に基づく推測といった誤りを修正する一方で、誤った推論や確信過剰な誤断定には効果が限定的であることを示し、Transition Matrix 枠組みを用いてモデルのベースライン誤りプロファイルに基づき最適な手法を決定する指針を提示しています。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

この論文は、生成エンジン最適化（GEO）において引用率を向上させるため、引用失敗の原因を診断し、エージェント型システム「AgentGEO」を用いてターゲットを絞った修正を自動適用する新たな枠組みを提案し、既存手法と比較して大幅な改善とコンテンツの最小限の変更を達成したことを示しています。

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi Jia2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

この論文は、LLM の長期的な対話における文脈制限を克服するため、意味的相関に基づく適応的なメモ抽出と、ユーザー入力に応じて適切な検索ツールを自律的に選択・反復実行する「TA-Mem」という新しいフレームワークを提案し、LoCoMo データセットにおいて既存手法を上回る性能を実証したものです。

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

本論文は、複雑な質問を構造化されたトリプルサブクエリに分解し、軽量な階層分類法とハイブリッドなマッチング手法を用いて文書から証拠を段階的に選択する「TaSR-RAG」を提案し、これにより従来の RAG システムよりも高精度な多段推論と証拠の帰属を実現したことを報告しています。

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

この論文は、大規模言語モデル（LLM）が生成するラベルが人間のラベルとよく一致することを実証し、それを用いて既存の空間的カテゴリ化データセット（TRPS）を拡張することで、より広範なシーンと言語を効率的にカバーする手法を提案しています。

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

Reward Prediction with Factorized World States

この論文は、言語モデルを用いて非構造化の観測を階層的なオブジェクト属性構造に変換する「StateFactory」を導入し、構造化された状態表現に基づく報酬予測により、ゼロショット設定での高い汎化性能とエージェントの計画成功率の向上を実現したことを報告しています。

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

この論文は、LLM を用いて実データを制御的に劣化させることで合成評価データを生成し、人間の注釈に依存せず多言語タスクにおいて 0.9 を超えるメタ相関で評価指標を検証する「LLM as a Meta-Judge」と呼ばれるスケーラブルなフレームワークを提案しています。

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

本論文は、フランス語の患者記録を用いた実験を通じて、大規模言語モデル（LLM）が性別と他の社会的決定要因（SDoH）の相互作用に基づいてステレオタイプに依存した判断を下すことを実証し、既存のバイアス評価手法を補完する新たなアプローチの必要性を提唱しています。

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin2026-03-11🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

この論文は、大規模言語モデルが道徳的推論を常識的理解よりも優先する傾向にあること、特に物語の語り手ではなく二次的な登場人物に矛盾が割り当てられた場合にのみその矛盾を検出しやすい「物語焦点バイアス」が存在することを、新規ベンチマーク「CoMoral」を用いた評価を通じて明らかにし、常識の堅牢性を高めるための推論重視のトレーニングの必要性を訴えています。

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

既存のベンチマークの限界を克服するため、実際のサイバー脅威インテリジェンス（CTI）分析ワークフローに基づき、専門家による注釈と実用的な評価指標を用いて大規模言語モデルを評価する新しいベンチマーク「CyberThreat-Eval」を提案し、その評価を通じて現在のモデルが複雑な詳細や事実の区別において依然として課題を抱えていることを明らかにしています。

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL

← 前へ次へ →