Spilled Energy in Large Language Models

この論文は、LLM の最終的な softmax 分類器をエネルギーベースモデルとして再解釈し、追加の学習や活性化の除去を必要とせず、出力ログイットから直接導出される「溢れたエネルギー」と「周辺化エネルギー」という 2 つのトレーニングフリー指標を用いて、ハルシネーションや事実誤認を高精度に検出する手法を提案しています。

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、報酬設計に焦点を当ててルブリックをモデルの能力に応じて階層化し、動的に重みを調整する「RuCL」という新しいフレームワークを提案し、視覚推論ベンチマークにおいて SOTA となる精度を達成したことを報告しています。

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

本論文は、画像データの制約を克服し大規模な言語カバレッジを実現するため、音声とテキストを融合して大規模言語モデルに統合し、自己進化メカニズムを用いて合成音声データで最適化する「音声ガイド機械翻訳(SMT)」フレームワークを提案し、多言語マルチモーダル翻訳および汎用翻訳タスクにおいて最先端の性能を達成したことを報告しています。

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

この論文は、大規模言語モデルが複雑な研究タスクを解決する能力を評価するための新たなタスク「Super Research」と、多様なドメインにおける 300 の専門的な質問からなるベンチマーク、そして構造化された分解や広範・深掘り検索、グラフに基づく監査プロトコルを含む評価手法を提案するものである。

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

本論文は、異質な形式や注釈基準に起因する研究の断絶を解消するため、エンティティとイベントの両方のコリファレンスを統合し、一貫したフォーマットと評価プロトコルを提供する統一データセット「uCDCR」を構築・分析し、クロスドメインでのモデル汎化性能向上とイベントおよびエンティティの両方の解決の重要性を明らかにしています。

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

この論文は、医療概念のシグネチャに基づいて臨床的に意味のある Yes/No 質問を生成するオントロジーに基づくフレームワーク「QIME」を提案し、従来の解釈可能な埋め込み手法を凌駕しながらブラックボックス型モデルとの性能差を大幅に縮小し、かつトレーニング不要な戦略も可能にすることで、臨床意思決定に有用な解釈性のある医療テキスト埋め込みを実現することを示しています。

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

この論文は、臨床専門家の監修により予防から長期フォローアップまでの多様な症例とタスクを網羅し、rubric 評価と二重ジャッジフレームワークを用いて中国語医療大規模言語モデルの性能を包括的に評価する新しいベンチマーク「ClinConsensus」を提案し、モデル間の能力差や臨床的実行可能性における課題を明らかにしたものである。

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

Recursive Think-Answer Process for LLMs and VLMs

本論文は、モデルの回答の確信度を評価するコンフィデンスジェネレーターと二つの報酬を用いて反復推論サイクルを可能にする効率的な「再帰的思考・回答プロセス(R-TAP)」を提案し、これにより大規模言語モデルおよび視覚言語モデルの推論精度を向上させ、自己反省的な誤り表現を減らしてより安定した推論を実現することを示しています。

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

この論文は、既存のモデルでは同時には実現できなかった語彙頻度分布(Zipf の法則)と長距離相関の両方を保持する、分数ガウスノイズを経験的ヒストグラムにマッピングする新しい置換モデルを提案し、英語・ラテン語のテキストやゲノム DNA などの記号系列の分析に有効であることを示しています。

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

この論文は、LLM の自己進化が単なる自己遊戯で停滞するのではなく、提案・解決・検証という三つの役割を持つ自己合成データパイプラインにおいて「学習可能な情報量」が反復ごとに増加するように設計された非対称共進化、容量増大、能動的な情報探索という 3 つのシステム設計によって初めて持続可能になることを示しています。

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

本論文は、スパースアテンションにおいて学習されたゲートがランダムなゲートと同等の性能しか示さない「ルーティング吸収」という現象を提唱し、Q/K/V 投影層との共適応が原因であることを示唆するとともに、表現学習とスパース化を分離する事後アプローチの有効性を論じています。

Keston Aquino-Michaels2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

この論文は、早期融合と後期融合の限界を克服し、高度な推論タスクを支援するために、エッジベースのサブグラフ検索、クエリ関連ノードの拡張、および星グラフレベルでの LLM 推論を統合した新しいテーブル・テキスト検索フレームワーク「HELIOS」を提案し、OTTT-QA ベンチマークで既存の最先端モデルを大幅に上回る性能を示すことを報告しています。

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

本論文は、拡散言語モデル(DLM)の記憶化挙動を理論的・実証的に解明し、サンプリング解像度と完全な訓練データ抽出の確率との単調な関係を証明するとともに、自己回帰モデル(ARM)と比較して DLM が個人識別情報(PII)の漏洩リスクが低いことを示しています。

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

本論文は、放送ニュースやオーディオブックなど多様な分野から収集された 126 時間以上の音声データを含むローマニア語の新しいベンチマーク「RO-N3WS」を提案し、これを用いた微調整が低リソースおよび分布外条件下での音声認識モデルの汎化性能を大幅に向上させることを示しています。

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL