A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

本研究は、20 万を超える査読論文や 40 万行の CFD コードから構築された大規模知識ベースと、RAG から知識グラフ、継続的事前学習へと進む 3 段階の知識注入パイプラインを用いて、燃焼科学分野に特化した大規模言語モデルの開発と評価を可能にする初の包括的フレームワークを提案し、単純な RAG には性能の上限があることを実証しています。

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

本論文は、推論段階での数値的不安定性を最大化する損失関数を最適化することで、入力画像のわずかな変更のみで最先端のマルチモーダル大規模言語モデルの性能を著しく低下させる新たな攻撃手法を提案し、既存の敵対的摂動とは異なる故障モードを実証したものである。

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

本論文は、技術ドメインの検索ベンチマーク「FreshStack」を対象に、2024 年と 2025 年のコーパスの時間的変化を分析し、ドキュメントの移行が起きても検索モデルの評価順位は高い相関を保つことから、時間的に変化するコーパスを用いた再評価でもベンチマークの信頼性が維持されることを示しています。

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

本論文は、検索段階と生成段階を協調的にモデル化し、クエリと証拠の意味的整合性を確保するとともに、生成プロセスに証拠を明示的な制約として組み込むことで、事実の信頼性と検証可能性を向上させる新規の検索拡張生成手法を提案しています。

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

この論文は、単一の情報源からの抽出ではなく複数のソースからの証拠統合や因果関係の追跡といった高次な意味理解能力を評価するため、実世界の注目を反映した動的な質問応答ベンチマーク「iAgentBench」を提案し、検索能力だけでなく証拠の統合・活用能力の重要性を実証しています。

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。

Samin Khan2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

この論文は、データ拡張や特徴量強化の手法を従来の分類器や大規模言語モデルに適用してヘイトスピーチ検出を評価し、特にオープンソースの gpt-oss-20b が最高性能を示す一方で、手法の効果がデータセットやモデルとの相互作用に依存し、暗黙的なヘイトスピーチの検出がより困難であることを明らかにしています。

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

この論文は、米国最高裁の口頭弁論記録を用いて、AI モデルが模擬裁判における裁判官の質問をシミュレーションできるかを検証し、人間評価と代理指標を組み合わせた二層評価フレームワークにより、生成された質問は現実的かつ実質的な法的論点を捉える一方で、多様性の欠如や同調性といった課題が残っていることを明らかにしています。

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

本論文は、Gemini Deep Think と木探索フレームワークを統合したニューロシンボリックシステムを用いて、宇宙ひもからの重力放射のパワースペクトルに関する未解決問題に対し、数値的フィードバックを駆使して Gegenbauer 多項式展開による厳密な解析解を導出したことを報告するものである。

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs