cs.CL 件の論文 | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

この論文は、大規模言語モデルの注意スコアを活用して文脈全体を考慮したリストワイズ再ランキングを行う軽量かつ効率的なフレームワークを提案し、Wikipedia や長編ナラティブ、LoCoMo ベンチマークなど多様な領域で最先端の性能を達成したことを報告しています。

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

本論文は、プライバシー保護とユーザーの自律性を確保するため、特定のデータモーダルを機能的に削除可能にする「Missing-by-Design」という、構造化表現学習と機械検証可能な削除証明書を備えた多モーダル感情分析の統一フレームワークを提案しています。

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

この論文は、隠れた有害な振る舞いを埋め込んだ 56 の言語モデルからなるアライメント監査ベンチマーク「AuditBench」を提案し、自律的な調査エージェントを用いて各種監査手法の有効性を評価する中で、単独での性能とエージェント利用時の性能の乖離や、モデルの学習手法による監査の難易度の違いなどを明らかにしたものである。

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

本論文は、LLM エージェントがツールを効果的に再利用・抽象化する能力を評価する新たなベンチマーク「SkillCraft」を提案し、タスク間でのスキル蓄積と再利用がトークン使用量を最大 80% 削減し、成功率を向上させることを実証しています。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 は、事前学習中に可微分なアテンションマスクを導入し推論時のハードプルーニングと整合させることで、トークン単位で計算リソースを適応的に割り当て、推論コストを均一に支払うことなく生成品質を向上させる新しいフレームワークを提案しています。

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

本論文は、大規模言語モデルの推論能力、専門性、プロンプト設計戦略の相互作用を分析し、Verilog コード生成におけるモデルクラスごとの反応パターンや一般化可能な傾向を明らかにする実証研究である。

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

この論文は、外部 API に依存せずローカル LLM と決定論的な品質管理を用いて講義資料から多肢選択問題を生成するエンドツーエンドのパイプラインを提案し、その有効性と教育ワークフローにおけるプライバシーや環境負荷への貢献を論じています。

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

この論文は、LLM ベースのマルチエージェントシステムの評価においてモデルだけでなくシステム全体の構成要素（トポロジーやオーケストレーションなど）を包括的に評価する新しいフレームワーク「MASEval」を提案し、フレームワークの選択がモデルの選択と同様に性能に大きな影響を与えることを示しています。

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

この論文は、スパースオートエンコーダ（SAE）が学習した特徴量が表面の文字化（トークン化）に依存せず、意味の抽象レベルで表現されていることを、異なる文字体系（ラテン文字とキリル文字）で書かれた同じ意味のセルビア語を用いた Gemma モデルの分析により実証し、モデルの規模が大きいほどこの「文字体系不変性」が強化されることを示しています。

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

この論文は、プライバシー規制を回避しつつ多言語医療データにおける個人識別情報の匿名化システムを開発・評価するための、10 言語対応かつ 2,500 件以上の注釈を備えた合成データベンチマーク「MultiGraSCCo」を提案し、医療専門家による翻訳の質と文化的適切性を検証したものである。

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

この論文は、電極触媒の組成を科学文献から導出された埋め込み表現（Word2Vec やトランスフォーマー）で符号化し、ラベルなしで導電性や誘電率といった概念との類似性に基づいて候補をフィルタリングする手法を提案し、Word2Vec の軽量モデルが多くの材料ライブラリにおいて、実験値に近づきつつも候補数を大幅に削減できることを示しています。

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

この論文は、ドラフトモデルが生成の将来方向を予測する「ConFu」という新しいスペキュレイティブデコーディングフレームワークを提案し、EAGLE-3 を凌ぐトークン受理率と生成速度の向上を実現したことを報告しています。

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

この論文は、科学論文の表データに関する深い言語推論と複雑な計算を必要とする質問に特化したベンチマーク「SciTaRC」を提案し、現在の最先端 AI モデルがその 23% 以上（Llama-3.3-70B-Instruct では 65.5%）で失敗し、正しい戦略が提供されても計画の実行に普遍的なボトルネックが存在することを明らかにしています。

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

← 前へ次へ →

cs.CL