LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

この論文は、大規模言語モデルの評価における課題を解決するため、自然言語による単体テストという新しいパラダイムと、それを統合的にスコアリングする LMUnit モデルを提案し、人間の評価者間の一致率向上やベンチマークでの最高性能達成を通じてその有効性を実証しています。

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

この論文は、LLM によるデータ合成と評価を組み合わせた新しいモデル開発パラダイムにおいて、生成モデルと評価モデルの関連性(同一モデル、継承関係、同ファミリー)に起因する「選好漏れ」という新たな汚染問題が、既存のバイアスよりも検出が困難で広範な影響を及ぼすことを実証的に明らかにしたものである。

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

本論文は、物体間の相互作用が乏しい既存のテキストから画像生成モデルの課題を解決するため、マルチモーダル大規模言語モデルを用いて相互作用に特化したデータセット「\data」を構築し、生成画像を分解・批判・部分拡散プロセスによる精緻化を行う手法「\model」を提案し、その有効性を示したものである。

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

本論文は、AI エージェントが自身の出力を入力として再利用し、特定の情報統合閾値を超えると、内部複雑性が無制限に増大する「ノイズ・トゥ・ミーニング再帰的自己改善(N2M-RSI)」という形式的モデルを提示し、その安全性を考慮して実装詳細を省略しつつ、エージェント群への拡張可能性を示唆しています。

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

本論文は、英国政府の公衆衛生ガイダンスに基づいて構築された新しいベンチマーク「PubHealthBench」を用いて 24 種類の LLM を評価した結果、最新のプロプライエタリモデルは多肢選択問題で人間を上回る精度を示したが、自由記述形式では 75% 以下の性能にとどまり、実用には追加の安全策が必要であることを明らかにしました。

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

本論文は、視覚トークンプルーニングにおけるプロンプト整合性と視覚保存のトレードオフをハウスドルフ距離に基づく誤差限界とε-被覆理論で定式化し、これらを最適にバランスさせる「Multi-Objective Balanced Covering (MoB)」を提案することで、LLaVA などの大規模マルチモーダルモデルにおいてトークン数を大幅に削減しつつ性能を維持する手法を開発した。

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

この論文は、従来の補正手法では不十分な LLM の推論バイアスに対処するため、文脈内の例のみを用いてロジット空間における最適アフィン変換を学習し、決定境界の向きを柔軟に調整可能な「Supervised Calibration(SC)」という新しい枠組みを提案し、複数のモデルとデータセットで最先端の性能を達成したことを報告しています。

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

この論文は、言語モデルが長さや構造などの表面的な特徴に過剰に依存するバイアスを示す問題を特定し、対照的な合成データを用いた対照的データ拡張(CDA)による微調整が、人間の嗜好との不一致を軽減しつつ標準的なアライメントパイプライン内の信頼性を向上させることを実証しています。

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

本論文は、100 人の精神保健専門家と協力して開発された大規模ベンチマーク「CounselBench」を通じて、LLM が実際の患者の質問に対する回答において、安全性や個別化の面で課題を抱えていること、および自動評価が人間の専門家の判断を過大評価する傾向があることを明らかにし、精神保健分野における LLM の評価と改善のための臨床的に根拠ある枠組みを確立したものである。

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

この論文は、音声認識における発音と表記の不一致という課題に対し、推論中にユーザーが誤りを即座に修正・入力できる新たな文脈バイアス手法を提案し、従来のテキスト置換方式と比較してバイアス対象単語の誤り率を 22%〜34% 改善しながら全体の性能を維持できることを示しています。

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

本論文は、文脈内学習によるタスク一般化のメカニズムを「オフ・バイ・ワン加算」タスクを通じて解釈可能性の観点から解明し、標準的な加算から「+1」という関数を抽象的に誘導する「関数誘導」と呼ばれるメカニズムが、複数の注意ヘッドの並列動作によって実現され、多様なタスクで再利用可能であることを示しています。

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

この論文は、テキストのみのデータセットを多モーダル形式に変換する「Text2VLM」という新しいパイプラインを提案し、視覚入力によるプロンプトインジェクション攻撃に対するビジュアル言語モデルの脆弱性を評価し、より堅牢な安全メカニズムの構築に貢献するものです。

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI