SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

本論文は、UK バイオバンクの 23 万人以上のコホートデータを用いて、気流制限の時間系列データであるスパイログラムを直接理解し、解釈可能な臨床診断レポートを生成する初のマルチモーダル大規模言語モデル「SpiroLLM」を提案し、COPD 診断における高い精度と欠損データに対する堅牢性を臨床的に実証したものである。

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

この論文は、大規模言語モデルが意味のないキートークンを用いた事実の丸暗記後に意味のあるプロンプトで微調整を行うことで、暗記したデータを構造化された潜在表現を通じて再解釈し一般化できることを示し、効率的な知識注入の可能性と悪用リスクの両方を浮き彫りにしています。

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

本論文は、複雑なクエリを構造化されたサブ質問に分解し、LLM を知識ルーターとして活用して最適な情報源へ動的にルーティングする多段階の選別プロセスを通じて、従来の RAG 手法の限界を克服し、推論の深さ、検索精度、解釈可能性を向上させるアジェンティック RAG フレームワーク「DeepSieve」を提案するものである。

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

この論文は、視覚状態の遷移を統合的にモデル化し、マクロレベルの計画とミクロレベルの実行という二段階の推論パラダイムを導入することで、計算コストを抑えながら視覚と言語にまたがる一貫性のある推論を実現する「Uni-CoT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

この論文は、固定された計算予算下でミクスチャー・オブ・エキスパート(MoE)モデルを訓練し、推論タスクにはアクティブな計算量(Active FLOPs)が、記憶タスクには総パラメータ数とトークン数の比率(TPP)がそれぞれ重要であることを明らかにし、従来の計算最適スケーリングの概念を修正する新たな最適スパース性の指針を提唱しています。

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

EigenBench は、人間の価値観との整合性を定量化する指標の欠如に対処するため、モデル間の相互評価と EigenTrust アルゴリズムを組み合わせ、正解ラベルなしで言語モデルの価値観を比較評価するブラックボックス手法を提案し、その有効性を人間の評価や既存ベンチマークとの一致によって実証したものである。

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

この論文は、強化学習後の大規模言語モデルが抱える出力の多様性低下の問題を解決するため、行列性点過程(DPP)を用いて品質と意味的多様性を同時に最適化する新しい学習手法「DQO」を提案し、さまざまなタスクにおいて多様性を損なわずに品質を維持できることを実証しています。

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

本論文は、プライバシー規制により共有が困難な LLM 間の脅威インテリジェンスを、PII 除去やバイナリ量子化などの技術を用いて攻撃の指紋を秘匿しながら共有し、高い検出精度と高速な検索を実現する「BinaryShield」というシステムを提案するものである。

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

本論文は、大規模言語モデルのタスク適応を重み更新ではなく出力分布の直接調整として捉え、ウォームアップ微調整から得たステアリングベクトルを用いてデコーディング段階で分布を誘導する軽量かつ理論的に裏付けられた手法「SVDecode」を提案し、パラメータを追加することなく複数の PEFT 手法と組み合わせて精度を向上させることを示しています。

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

本論文は、大規模言語モデル(LLM)のグラフ推論における能力を、インタラクション手法やデータ特性など多角的に大規模評価し、コード生成アプローチが特に長文や高次数グラフで優位であり、低ホモフィリーなグラフでも有効であることを実証するとともに、今後の設計指針を提示しています。

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

この論文は、代理関数を用いた新たな理論的枠組みに基づき、複数の制約条件(チャネル)を動的に適用することで、大規模言語モデルのセマンティックレベルの透かしを歪みなくかつ頑健に実現する手法「PMark」を提案し、既存手法を上回る品質と耐攻撃性を示すものです。

Jiahao Huo, Shuliang Liu, Bin Wang + 5 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

本論文は、ユーザーのフィードバックを報酬信号として活用し、理論的に最適方策へ収束する軽量な単一ステップ適応アルゴリズム「ROSA」を提案することで、大規模言語モデルの多ターン対話における性能低下を解決し、効率的な会話中自己修正を実現する手法「T2PAM」を確立したものである。

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

この論文は、大規模言語モデルの安全性向上のためのデータフィルタリング戦略が有害コンテンツの削減に寄与する一方で、差別の対象となる脆弱な集団のデータ表現をさらに低下させるという副作用を、体系的なベンチマーク研究を通じて明らかにしたものである。

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL