cs.CL 件の論文 | Gist.Science

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

本論文は、UK バイオバンクの 23 万人以上のコホートデータを用いて、気流制限の時間系列データであるスパイログラムを直接理解し、解釈可能な臨床診断レポートを生成する初のマルチモーダル大規模言語モデル「SpiroLLM」を提案し、COPD 診断における高い精度と欠損データに対する堅牢性を臨床的に実証したものである。

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

本論文は、主観的推論タスクにおいて多様な視点とトークンレベルの多様性を導入し、多角的な役割を統合した推論チェーンを構築する「MultiRole-R1」を提案することで、LRM の性能を大幅に向上させることを示しています。

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

この論文は、大規模言語モデルが意味のないキートークンを用いた事実の丸暗記後に意味のあるプロンプトで微調整を行うことで、暗記したデータを構造化された潜在表現を通じて再解釈し一般化できることを示し、効率的な知識注入の可能性と悪用リスクの両方を浮き彫りにしています。

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

本論文は、複雑なクエリを構造化されたサブ質問に分解し、LLM を知識ルーターとして活用して最適な情報源へ動的にルーティングする多段階の選別プロセスを通じて、従来の RAG 手法の限界を克服し、推論の深さ、検索精度、解釈可能性を向上させるアジェンティック RAG フレームワーク「DeepSieve」を提案するものである。

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

この論文は、視覚状態の遷移を統合的にモデル化し、マクロレベルの計画とミクロレベルの実行という二段階の推論パラダイムを導入することで、計算コストを抑えながら視覚と言語にまたがる一貫性のある推論を実現する「Uni-CoT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

この論文は、固定された計算予算下でミクスチャー・オブ・エキスパート（MoE）モデルを訓練し、推論タスクにはアクティブな計算量（Active FLOPs）が、記憶タスクには総パラメータ数とトークン数の比率（TPP）がそれぞれ重要であることを明らかにし、従来の計算最適スケーリングの概念を修正する新たな最適スパース性の指針を提唱しています。

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

EigenBench は、人間の価値観との整合性を定量化する指標の欠如に対処するため、モデル間の相互評価と EigenTrust アルゴリズムを組み合わせ、正解ラベルなしで言語モデルの価値観を比較評価するブラックボックス手法を提案し、その有効性を人間の評価や既存ベンチマークとの一致によって実証したものである。

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

本論文は、テキストと視覚情報のバイアスを第一-order 勾配を用いて推定し、追加モデルや微調整なしで既存のマルチモーダル大規模言語モデルの幻覚を抑制し視覚的根拠を強化する推論ベースの手法「GACD」を提案するものである。

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

この論文は、強化学習後の大規模言語モデルが抱える出力の多様性低下の問題を解決するため、行列性点過程（DPP）を用いて品質と意味的多様性を同時に最適化する新しい学習手法「DQO」を提案し、さまざまなタスクにおいて多様性を損なわずに品質を維持できることを実証しています。

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

本論文は、プライバシー規制により共有が困難な LLM 間の脅威インテリジェンスを、PII 除去やバイナリ量子化などの技術を用いて攻撃の指紋を秘匿しながら共有し、高い検出精度と高速な検索を実現する「BinaryShield」というシステムを提案するものである。

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

本論文は、大規模言語モデルのタスク適応を重み更新ではなく出力分布の直接調整として捉え、ウォームアップ微調整から得たステアリングベクトルを用いてデコーディング段階で分布を誘導する軽量かつ理論的に裏付けられた手法「SVDecode」を提案し、パラメータを追加することなく複数の PEFT 手法と組み合わせて精度を向上させることを示しています。

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

本論文は、大規模言語モデル（LLM）のグラフ推論における能力を、インタラクション手法やデータ特性など多角的に大規模評価し、コード生成アプローチが特に長文や高次数グラフで優位であり、低ホモフィリーなグラフでも有効であることを実証するとともに、今後の設計指針を提示しています。

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

この論文は、代理関数を用いた新たな理論的枠組みに基づき、複数の制約条件（チャネル）を動的に適用することで、大規模言語モデルのセマンティックレベルの透かしを歪みなくかつ頑健に実現する手法「PMark」を提案し、既存手法を上回る品質と耐攻撃性を示すものです。

Jiahao Huo, Shuliang Liu, Bin Wang + 5 more2026-03-03💬 cs.CL

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

本論文は、推論時の木構造と訓練時の単一パスの不一致という課題を解決し、ターゲットモデルによる受諾長を直接最適化する「Group Tree Optimization (GTO)」を提案することで、既存の最先端手法 EAGLE-3 を凌駕する推論速度向上を実現したことを報告しています。

Shijing Hu, Jingyang Li, Zhihui Lu + 1 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

本論文は、ユーザーのフィードバックを報酬信号として活用し、理論的に最適方策へ収束する軽量な単一ステップ適応アルゴリズム「ROSA」を提案することで、大規模言語モデルの多ターン対話における性能低下を解決し、効率的な会話中自己修正を実現する手法「T2PAM」を確立したものである。

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

この論文は、単一の学習実行中に複数の事前学習実験を同時に実施することで、大規模言語モデルの挙動を研究するための計算コストの制約を克服し、モデルの性能への影響を最小限に抑えながら厳密な科学実験を可能にする新しい手法を提案しています。

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Dynamic Level Sets

この論文は、確率的チューリング機械が決定論的機械を超える計算能力を持たないという古典的結果を覆す可能性を秘めた、不変な論理レベル集合が不完全な物理過程によって各計算ステップで再構成されるという「動的レベル集合」という新たな数学的概念を提唱し分析しています。

Michael Stephen Fiske2026-03-03🔢 math-ph

FeynTune: Large Language Models for High-Energy Theory

本論文は、Llama-3.1 を基盤に高エネルギー物理学の分野別 arXiv 抄録で微調整した専用大規模言語モデル「FeynTune」を開発し、汎用モデルや商用 LLM を上回る性能を実証したものである。

Paul Richmond, Prarit Agarwal, Borun Chowdhury + 2 more2026-03-02⚛️ hep-th

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

この論文は、大規模言語モデルの安全性向上のためのデータフィルタリング戦略が有害コンテンツの削減に寄与する一方で、差別の対象となる脆弱な集団のデータ表現をさらに低下させるという副作用を、体系的なベンチマーク研究を通じて明らかにしたものである。

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

When ChatGPT is gone: Creativity reverts and homogeneity persists

ChatGPT は創造的タスクにおける一時的なパフォーマンス向上をもたらすものの、その使用が終了すれば人間の創造性は基線レベルへ戻り、長期的にはコンテンツの画一化を招き、人間の創造性を制限する可能性があることを示した研究です。

Qinghan Liu, Yiyong Zhou, Jihao Huang + 1 more2024-01-11💬 cs.CL

← 前へ次へ →