cs.CL 件の論文 | Gist.Science

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

この論文は、アテンション出力投影をパラメータ不要のウォルシュ・アダマール変換と軽量なアフィン再スケーリングに置き換えることで、モデルのパラメータ数とメモリ使用量を削減しつつ、標準ベンチマークで同等以上の性能を維持する効率的なトランスフォーマーアーキテクチャを提案しています。

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

この論文は、言語モデルが条件文における前提の投影（予備問題）を扱う能力を調査し、RoBERTa や LLaMA などのモデルが人間の判断と概ね一致するものの、意味論的・語用論的推論ではなく表面的なパターンマッチングに依存していることを明らかにした最初の研究です。

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

本論文は、言語的事前知識を必要とせず音声および視覚情報を学習する自己教師ありモデルの進展を通じて、乳児の言語獲得のメカニズムを説明し、現代の学習シミュレーションが実証研究とより密接に結びつきつつあることをレビューするものである。

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

本論文は、適応的ループ機構とゲート付き記憶バンクを組み合わせることで、数学的推論と常識タスクの両方において、層数が3倍の等価FLOPモデルを上回る性能を発揮するトランスフォーマーを提案し、その内部では層ごとの専門化（初期層はループ・記憶を最小限、後続層は活発に利用）が観察されることを明らかにしています。

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

この論文は、がん患者向け生活指導を生成する LLM パイプライン「COACH」を提案し、開発者・医療専門家・ユーザーの多様な視点を統合する評価フレームワーク「QUORUM」を用いて、生成された指導の信頼性や質を多角的に検証した研究成果を報告しています。

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

本論文は、LLM が生成トークンの条件付けによって行動を柔軟に切り替えられる「変幻自在性」を発見し、これを強化学習で定着させるフレームワーク「ToCoRL」を提案することで、推論モデルの能力を維持しつつ事実問答などへの適応を可能にしたことを示しています。

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

教育分野における大規模な対話データの質的分析のボトルネックを解消するため、研究者の対話型ダッシュボードと自律型 LLM エンジンを密接に連携させ、プライバシー保護とハルシネーション防止を徹底した「Sandpiper」という混合主導型システムを提案する論文です。

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

この論文は、人間の選好が文脈操作によって容易に書き換えられ、LLM による検出も不十分であり、標準的な評価指標では見逃される「選好の構築問題」が存在し、これが RLHF の報酬信号と最終的な方策の劣化を引き起こすことを示しています。

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

この論文は、LLM の隠れ状態から軽量な投影ヘッドを用いて直接検索埋め込みを生成する手法を提案し、従来の「生成後エンコード」パイプラインを不要にしながらも、QReCC ベンチマークで基線モデルの検索品質の 97% を維持できることを示しています。

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

この論文は、視覚的ショートカットに依存せず時空間的連続性のみで物体を追跡する必要がある「VET-Bench」という新たなベンチマークを導入し、既存の視覚言語モデルがその課題で失敗する根本的な限界を明らかにするとともに、物体の軌跡を明示的な中間状態として生成する「Spatiotemporal Grounded Chain-of-Thought（SGCoT）」手法を提案することで、90% 超の精度でこの「殻割りゲーム」タスクを解決可能であることを示しています。

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

この研究は、リアルタイムの安全監視下で実施された前向き臨床feasibility 研究において、LLM ベースの対話型 AI「AMIE」が、患者の満足度向上や医師の準備性への貢献、そして診断精度において医療従事者と同等の安全性と質を有し、実際のプライマリケア現場での導入可能性を実証したことを示しています。

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

この論文は、英語からスウェーデン語への翻訳において、モデルが自然な表現よりも「翻訳調」を好む傾向があることを示す、誤りタグ付きの初のフリーデータセットと、その評価結果を提示するものである。

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

LycheeCluster は、境界認識によるチャンキングと三角形不等式に基づく階層的 KV インデックスを導入することで、長文脈推論における KV キャッシュ管理を線形探索から対数時間への剪定プロセスへと変換し、モデル性能の低下を最小限に抑えつつ最大 3.6 倍の推論高速化を実現する手法です。

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

この論文は、イスラム教の聖典や法解釈に基づいた正確な回答を提供するため、意図に応じたルーティング、聖句の検証、および特定の法学派に準拠した計算機能を持つ多エージェント・アーキテクチャ「Fanar-Sadiq」を提案し、その有効性と実用性を示したものである。

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

本論文は、ラベル遅延や計算リソースなどの制約下で、オンラインリスク証明を用いてドリフト検知を安全な意思決定プロセスへと変換し、低コストな対応からロールバックまでの適切な介入を自動制御する「Drift2Act」という新しいフレームワークを提案しています。

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本論文は、米国財務省の約 100 年間にわたる膨大で多様な文書コーパスに基づき、最先端の AI エージェントが構造化された文書表現の提供により性能が向上するものの、依然として企業レベルの根拠に基づく推論において大幅な改善の余地があることを示す「OfficeQA Pro」というベンチマークを提案しています。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

本論文は、推論コストと精度のバランスを最適化する「CODA」という手法を提案し、タスクの難易度に応じた推論深度を動的に調整することで、簡単なタスクではトークン使用量を 60% 以上削減しつつ複雑なタスクでは性能を最大化することを実現しています。

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

本論文は、ラベルなし強化学習（URLVR）における内在的報酬がモデルの初期分布を鋭化させるメカニズムにより、信頼性と正解性の整合性次第で性能が一旦向上後に崩壊するという限界を理論的・実験的に解明し、その一方で計算的非対称性に基づく外部報酬がこの壁を越える可能性を示唆しています。

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

この論文は、模倣学習や既存の自己反省手法の限界を克服し、行動の良し悪しを自主的に判断する推論能力を強化する強化学習パラダイム「Agentic Critical Training (ACT)」を提案し、複数のエージェントベンチマークおよび一般推論タスクにおいて顕著な性能向上と分布外汎化能力を実証したものである。

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

この論文は、心臓血管疾患に関する難問 190 問を用いた評価において、ChatGPT が医学部生 2 名を上回る 92.10% の正答率を示し、医学教育における有望なツールとなり得ることを実証しています。

Walid Hariri2026-03-09💬 cs.CL

← 前へ次へ →