cs.CL 件の論文 | Gist.Science

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

この論文は、英語の受動態の例外を学習するメカニズムを調査するために言語モデルの訓練データを操作し、語彙の定着度と意味的要素の両方がその制限の学習に独立して寄与することを示しました。

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

この論文は、大規模言語モデルの評価における課題を解決するため、自然言語による単体テストという新しいパラダイムと、それを統合的にスコアリングする LMUnit モデルを提案し、人間の評価者間の一致率向上やベンチマークでの最高性能達成を通じてその有効性を実証しています。

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

この論文は、LLM によるデータ合成と評価を組み合わせた新しいモデル開発パラダイムにおいて、生成モデルと評価モデルの関連性（同一モデル、継承関係、同ファミリー）に起因する「選好漏れ」という新たな汚染問題が、既存のバイアスよりも検出が困難で広範な影響を及ぼすことを実証的に明らかにしたものである。

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

OSCAR: Online Soft Compression And Reranking

OSCAR は、推論時に検索された情報を動的に圧縮して計算コストを削減し、同時に再ランク付けを行うことで、精度を維持したまま RAG パイプラインの推論速度を 2〜5 倍に向上させる新しいオンラインソフト圧縮手法を提案するものです。

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

Generating Fine Details of Entity Interactions

本論文は、物体間の相互作用が乏しい既存のテキストから画像生成モデルの課題を解決するため、マルチモーダル大規模言語モデルを用いて相互作用に特化したデータセット「\data」を構築し、生成画像を分解・批判・部分拡散プロセスによる精緻化を行う手法「\model」を提案し、その有効性を示したものである。

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Your Own Output Becomes Your Training Data: Noise-to-Meaning Loops and a Formal RSI Trigger

本論文は、AI エージェントが自身の出力を入力として再利用し、特定の情報統合閾値を超えると、内部複雑性が無制限に増大する「ノイズ・トゥ・ミーニング再帰的自己改善（N2M-RSI）」という形式的モデルを提示し、その安全性を考慮して実装詳細を省略しつつ、エージェント群への拡張可能性を示唆しています。

Rintaro Ando2026-03-05🤖 cs.AI

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

本論文は、英国政府の公衆衛生ガイダンスに基づいて構築された新しいベンチマーク「PubHealthBench」を用いて 24 種類の LLM を評価した結果、最新のプロプライエタリモデルは多肢選択問題で人間を上回る精度を示したが、自由記述形式では 75% 以下の性能にとどまり、実用には追加の安全策が必要であることを明らかにしました。

Joshua Harris, Fan Grayson, Felix Feldman + 8 more2026-03-05🤖 cs.LG

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

本論文は、視覚トークンプルーニングにおけるプロンプト整合性と視覚保存のトレードオフをハウスドルフ距離に基づく誤差限界とε-被覆理論で定式化し、これらを最適にバランスさせる「Multi-Objective Balanced Covering (MoB)」を提案することで、LLaVA などの大規模マルチモーダルモデルにおいてトークン数を大幅に削減しつつ性能を維持する手法を開発した。

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

この論文は、多様なタスクにおけるコードインタープリターの活用を可能にするため、段階的なカリキュラム学習と強化学習を導入し、GPT-4o を凌駕する性能と自己検証行動を実現した「R1-Code-Interpreter」を提案するものである。

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

この論文は、従来の補正手法では不十分な LLM の推論バイアスに対処するため、文脈内の例のみを用いてロジット空間における最適アフィン変換を学習し、決定境界の向きを柔軟に調整可能な「Supervised Calibration（SC）」という新しい枠組みを提案し、複数のモデルとデータセットで最先端の性能を達成したことを報告しています。

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

この論文は、言語モデルが長さや構造などの表面的な特徴に過剰に依存するバイアスを示す問題を特定し、対照的な合成データを用いた対照的データ拡張（CDA）による微調整が、人間の嗜好との不一致を軽減しつつ標準的なアライメントパイプライン内の信頼性を向上させることを実証しています。

Anirudh Bharadwaj, Chaitanya Malaviya, Nitish Joshi + 1 more2026-03-05💬 cs.CL

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering

本論文は、100 人の精神保健専門家と協力して開発された大規模ベンチマーク「CounselBench」を通じて、LLM が実際の患者の質問に対する回答において、安全性や個別化の面で課題を抱えていること、および自動評価が人間の専門家の判断を過大評価する傾向があることを明らかにし、精神保健分野における LLM の評価と改善のための臨床的に根拠ある枠組みを確立したものである。

Yahan Li, Jifan Yao, John Bosco S. Bunyi + 3 more2026-03-05💬 cs.CL

Query-Level Uncertainty in Large Language Models

本論文は、LLM が生成コストを発生させる前にクエリごとの知識の限界を検出するためのトレーニング不要な手法「Internal Confidence」を提案し、これにより RAG やモデルのカスケードなどの適応的推論においてコスト削減と性能維持を両立できることを示しています。

Lihu Chen, Gerard de Melo, Fabian M. Suchanek + 1 more2026-03-05💬 cs.CL

Context Biasing for Pronunciation-Orthography Mismatch in Automatic Speech Recognition

この論文は、音声認識における発音と表記の不一致という課題に対し、推論中にユーザーが誤りを即座に修正・入力できる新たな文脈バイアス手法を提案し、従来のテキスト置換方式と比較してバイアス対象単語の誤り率を 22%〜34% 改善しながら全体の性能を維持できることを示しています。

Christian Huber, Alexander Waibel2026-03-05🤖 cs.LG

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

本論文は、シミュレートされたユーザーからの検証可能な感情報酬を活用する強化学習フレームワーク「RLVER」を提案し、これにより大規模言語モデルの共感能力を大幅に向上させつつ論理推論能力も維持できることを実証しています。

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

本論文は、大規模言語モデルの幻覚を検出するための最先端の不確実性定量化技術を用いた Python パッケージ「UQLM」を紹介し、これにより LLM の出力信頼性を向上させるための容易な統合ソリューションを提供することを目的としています。

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

本研究は、参照解決が RAG システムの検索精度と生成性能を向上させ、特に参照曖昧性の処理能力が限られる小規模モデルにおいてその効果が顕著であることを実証しています。

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

← 前へ次へ →

cs.CL