cs.CL 件の論文 | Gist.Science

SkillNet: Create, Evaluate, and Connect AI Skills

本論文は、AI エージェントが過去の経験を体系的に蓄積・再利用し、タスク実行の効率と安全性を大幅に向上させるために、20 万を超えるスキルを管理・評価・接続する大規模インフラ「SkillNet」を提案し、その有効性を複数のベンチマークで実証したものである。

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

本研究は、20 万を超える査読論文や 40 万行の CFD コードから構築された大規模知識ベースと、RAG から知識グラフ、継続的事前学習へと進む 3 段階の知識注入パイプラインを用いて、燃焼科学分野に特化した大規模言語モデルの開発と評価を可能にする初の包括的フレームワークを提案し、単純な RAG には性能の上限があることを実証しています。

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

本論文は、推論段階での数値的不安定性を最大化する損失関数を最適化することで、入力画像のわずかな変更のみで最先端のマルチモーダル大規模言語モデルの性能を著しく低下させる新たな攻撃手法を提案し、既存の敵対的摂動とは異なる故障モードを実証したものである。

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

この論文は、回答を含まない文脈情報を用いて質問の曖昧さを解消する書き換え手法を提案し、 Humanity's Last Exam ベンチマークにおいて、従来のプロンプト手法を凌駕する大幅な精度向上（0.14 から 0.37）を実現したことを示しています。

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

本論文は、技術ドメインの検索ベンチマーク「FreshStack」を対象に、2024 年と 2025 年のコーパスの時間的変化を分析し、ドキュメントの移行が起きても検索モデルの評価順位は高い相関を保つことから、時間的に変化するコーパスを用いた再評価でもベンチマークの信頼性が維持されることを示しています。

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

LLM エージェントの長期記憶管理における課題を解決するため、5 つの解釈可能な要因に基づき透明性と効率性を両立する適応型記憶承認制御フレームワーク「A-MAC」を提案し、LoCoMo ベンチマークにおいて最先端のシステムを上回る精度と低遅延を実現したことを示しています。

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

本論文は、動的な対話におけるストリーミング大規模言語モデル（LLM）の定義を統一し、既存の概念の混同を解消する体系的な分類法を提案するとともに、その手法、応用、今後の研究展望を包括的に概説するものである。

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

この論文は、外部の批判とグループ内の試行という二つの自然言語フィードバック源を集約して目標指向の探索を導き、スパースな報酬環境におけるサンプル効率を大幅に向上させる強化学習フレームワーク「GOLF」を提案しています。

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

本論文は、検索段階と生成段階を協調的にモデル化し、クエリと証拠の意味的整合性を確保するとともに、生成プロセスに証拠を明示的な制約として組み込むことで、事実の信頼性と検証可能性を向上させる新規の検索拡張生成手法を提案しています。

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

この論文は、単一の情報源からの抽出ではなく複数のソースからの証拠統合や因果関係の追跡といった高次な意味理解能力を評価するため、実世界の注目を反映した動的な質問応答ベンチマーク「iAgentBench」を提案し、検索能力だけでなく証拠の統合・活用能力の重要性を実証しています。

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

本論文は、学生向けに教科書に基づいた回答を提供し、教員向けに講義の分析と振り返りを支援する双方向の AI ツール「Stan」を、クラウドに依存せずオープンウェイトモデルとローカルハードウェアのみで構築・実装し、その設計と課題解決について記述したものである。

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。

Samin Khan2026-03-06💻 cs

Optimizing Language Models for Crosslingual Knowledge Consistency

本論文は、強化学習に基づく新しい手法「Direct Consistency Optimization（DCO）」を提案し、報酬モデルを必要とせずに大規模言語モデルの多言語間における知識の一貫性を大幅に向上させることを示しています。

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

この論文は、ストップワードの頻度分布が Zipf の法則ではなく Beta ランク関数に従うことを発見し、順位に基づく確率的な選択モデルを提案することで、ストップワードの分布特性と非ストップワードの二次関数的な適合性を理論的に説明しています。

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

この論文は、データ拡張や特徴量強化の手法を従来の分類器や大規模言語モデルに適用してヘイトスピーチ検出を評価し、特にオープンソースの gpt-oss-20b が最高性能を示す一方で、手法の効果がデータセットやモデルとの相互作用に依存し、暗黙的なヘイトスピーチの検出がより困難であることを明らかにしています。

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

本論文は、大規模言語モデル（LLM）が、特に複雑な多クラス分類タスクにおいて、従来の機械学習手法やBERTを上回る性能でオンライン市場の違法コンテンツ検出に有効であることを、DUTA10Kデータセットを用いた実験を通じて実証している。

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

この論文は、米国最高裁の口頭弁論記録を用いて、AI モデルが模擬裁判における裁判官の質問をシミュレーションできるかを検証し、人間評価と代理指標を組み合わせた二層評価フレームワークにより、生成された質問は現実的かつ実質的な法的論点を捉える一方で、多様性の欠如や同調性といった課題が残っていることを明らかにしています。

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

この論文は、AI モデルを生物学的な有機体と見なし、その構造や動態を医学的アプローチで理解・診断・治療する新たな研究分野「モデル・メディシン」を提唱し、そのための体系的分類、行動遺伝学モデル、診断ツール、および臨床フレームワークを包括的に提示しています。

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

本論文は、Gemini Deep Think と木探索フレームワークを統合したニューロシンボリックシステムを用いて、宇宙ひもからの重力放射のパワースペクトルに関する未解決問題に対し、数値的フィードバックを駆使して Gegenbauer 多項式展開による厳密な解析解を導出したことを報告するものである。

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

← 前へ次へ →