From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

この論文は、既存のベンチマークが抱える汚染やバイアスの問題を解決し、大規模言語モデルのドメイン専門知識を、他のモデルや人手に頼らず生データから自動的に生成された完成型タスクによって安価かつ公平に評価する決定論的パイプラインを提案するものです。

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

本論文は、大規模言語モデル(LLM)の重みを固定したまま、ユーザーの入力に応じてシステムプロンプトを適応的に調整する「Sysformer」というトランスフォーマーモデルを提案し、有害な入力への拒否率や安全な入力への対応精度を大幅に向上させ、高度な脱獄攻撃に対しても堅牢性を高めることを実証しています。

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

本論文は、視覚言語モデル(VLM)の活性化における「視覚トークンの過剰性」と「モダリティ間の分布ギャップ」という 2 つの課題を特定し、勾配駆動の重要度因子を用いて重要なトークンを優先的に保持するポストトレーニング量子化フレームワーク「VLMQ」を提案し、低ビット設定でも最先端の性能を実現したことを示しています。

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

この論文は、農業機械の取扱説明書を用いたクロスリンガル技術質問応答タスクにおいて、ハイブリッド RAG 方式が 128K トークンのロングコンテキストを直接利用する LLM 提示よりも一貫して優れており、Gemini 2.5 Flash や Qwen 2.5 7B などのモデルで 85% 以上の高い精度を達成したことを示すケーススタディです。

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

MERLIN は、一般バイリンガルデータからタスク固有データへと段階的に学習するカリキュラム学習戦略と、少量の DoRA 重みの適応を組み合わせた 2 段階モデルスタックフレームワークであり、低資源言語における推論タスクの精度を大幅に向上させることを提案しています。

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

本論文は、同時通訳システムにおける遅延評価の課題を解決するため、セグメンテーションに起因するバイアスを克服し、短形・長形両方の音声翻訳システムをより正確に評価できる新たな指標(YAAL、LongYAAL)と再セグメンテーションツール(SoftSegmenter)を提案し、これらを OmniSTEval ツールキットとして実装したことを報告しています。

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

本論文は、偏微分方程式のタスクにおいて既存手法をそのまま適用するとデコーダ専用モデルがエンコーダ専用モデルに劣ることを示しつつ、並列反転とシーケンス倍増という 2 つの双方向性を模倣する新規手法を提案することで、デコーダ専用モデルの性能を大幅に向上させ、エンコーダモデルとの性能差を解消したことを報告しています。

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

この論文は、大規模言語モデルの評価におけるマイクロベンチマークが、完全なベンチマークや無作為なデータ抽出と比較してモデルの性能差を一貫して正しくランク付けできず、特に類似した性能を持つモデルを区別するには数百のサンプルが必要となり、その規模では既存のマイクロベンチマーク手法が無作為抽出と同等の信頼性しか持たないことを示しています。

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

この論文は、LLM の内部状態が出力の真偽ではなく「パラメトリック知識の想起」を反映しており、統計的関連性に駆動された「連想ハルシネーション」は事実と区別がつかないが、知識の欠如に起因する「非連想ハルシネーション」は検出可能であることを示している。

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

この論文は、ユーザーの行動を受動的に観察してその瞬間の目的を推論し、大規模言語モデル(LLM)をその目的に即座に最適化する「Just-In-Time 目的」アプローチを提案し、これにより汎用的な LLM よりもはるかに高品質で個別化されたツールや応答を生成できることを示しています。

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

この論文は、大規模言語モデルが文脈依存性を要する翻訳タスクにおいて、Chain-of-Thought 推論を活用することで、特に高性能なモデルほど顕著な精度向上(「賢いほど賢くなる」効果)を達成し、GPT-4 や Phi などのモデルが優れた結果を示すことを明らかにしています。

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

この論文は、チャットボットを用いたコミュニケーションデータの自動コーディングが、性別や人種・民族といった異なるサブグループ間でも人間の評価者と一貫した結果を示すことを実証し、大規模な協働・コミュニケーション評価への応用可能性を明らかにしたものである。

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

この論文は、Collaborative Battleship や Guess Who? などのタスクを通じて言語モデルの戦略的情報探索能力を評価し、ベイズ実験設計に着想を得たモンテカルロ推論手法を導入することで、人間のプレイヤーや最先端モデルを凌駕する高効率な自律エージェントの実現とコスト削減を達成したことを示しています。

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

この論文は、ビッグファイブ性格特性に基づいて LLM の潜在表現から低ランク部分空間を特定し、最適な層を選択するハイブリッド手法により、流暢さや汎用性を損なうことなく性格特性を安定的に制御する新しいパイプラインを提案するものである。

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

この論文は、大規模言語モデル(LLM)とグリッドベースの整数計画法を組み合わせ、テキストプロンプトから構造化された制約を抽出し、粗い解から詳細な解へと段階的に最適化する「Co-Layout」という枠組みを提案し、既存の2段階パイプラインよりも優れた室内レイアウトと家具配置の自動生成を実現するものです。

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

本論文は、推論モデルのテスト時適応において、多数決に基づく報酬が回答の短縮や性能低下を招く問題を解決するため、推論の分岐点となる高エントロピーのトークンのみを対象とした選択的な更新とエントロピー帯域正則化を導入した「SPINE」という新しいフレームワークを提案し、ラベルなしで安定した性能向上を実現することを示しています。

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG