Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

この論文は、過信と過小評価の両方を罰する対数スコア則に基づく強化学習アプローチを提案し、大規模言語モデルが回答生成プロセスに自信の推定をシームレスに統合して、事実的な質問に対する予測精度と整合した校正された自信表現を学習させることを示しています。

David Bani-Harouni, Chantal Pellegrini, Paul Stangel + 4 more2026-03-03💬 cs.CL

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions

本論文は、モデルサイズや学習トークン数だけでなく、データ構成やアーキテクチャ設計などの要因を統合的に分析するメタ分析フレームワークを提案し、それによって下流タスクの性能予測精度を大幅に向上させ、言語モデルの設計判断が最終的な能力に与える影響を体系的に解明するものである。

Emmy Liu, Amanda Bertsch, Lintang Sutawika + 9 more2026-03-03💬 cs.CL

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

LLaVE は、標準的な InfoNCE 損失の限界を克服するために難易度重み付き対照学習を導入し、MMEB ベンチマークで SOTA 性能を達成するとともに、画像 - テキストデータからゼロショットで動画検索タスクにも強力に汎化する大規模マルチモーダル埋め込みモデルを提案するものです。

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

この論文は、既存のモデルと DeepSeek-R1 を活用して作成した高品質なマルチモーダル推論データセットを用いた冷間起動と、過剰思考を抑制する Progressive Thinking Suppression Training 戦略を組み合わせた強化学習により、マルチモーダル大規模言語モデルの推論能力を飛躍的に向上させた「Vision-R1」を提案し、MathVista ベンチマークで OpenAI O1 に匹敵する性能を達成したことを報告しています。

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

A Foundational Individual Mobility Prediction Model based on Open-Source Large Language Models

本論文は、オープンソースの軽量大規模言語モデルとパラメータ効率型微調整技術を活用し、多様なデータソースや状況変化に対して高い汎用性、頑健性、そしてコスト効率を実現する個人移動予測の基盤モデル「MoBLLM」を提案し、既存の深層学習モデルや商用 LLM を凌駕する性能を実証したものである。

Zhenlin Qin, Leizhen Wang, Yancheng Ling + 2 more2026-03-03💬 cs.CL

Dynamic Token Reweighting for Robust Vision-Language Models

この論文は、大規模視覚言語モデルのマルチモーダル・ジャイルブレイク攻撃に対して、curated な安全データや高コストな画像変換に依存せず、推論時の KV キャッシュを最適化して視覚トークンの重みを動的に再調整する新たな防御手法「DTR」を提案し、既存の防御策を上回る攻撃耐性と汎用タスク性能の実証を示しています。

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Chain-of-Lure: A Universal Jailbreak Attack Framework using Unconstrained Synthetic Narratives

この論文は、事前定義されたテンプレートに依存せず、LLM の自由な欺瞞能力を活用して有害な意図を対話に隠蔽し、多ターン会話におけるランダムな物語最適化を行う「Chain-of-Lure」と呼ばれる新しいジェイルブレイク攻撃フレームワークを提案し、その高い攻撃成功率を実証するとともに、将来の安全対策に向けた具体的な防御戦略を提示しています。

Wenhan Chang, Tianqing Zhu, Yu Zhao + 3 more2026-03-03💬 cs.CL

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

本論文は、生成された誤答を「負のポリシー」として活用し、教師あり学習の枠組みで強化学習と同等以上の数学推論能力を達成する新たな手法「Negative-aware Fine-Tuning (NFT)」を提案し、教師あり学習と強化学習の間の理論的・実証的ギャップを埋めることを示しています。

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang + 8 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

この論文は、ブラックボックス大規模言語モデルの汎用的な出力という課題に対処するため、ユーザーの行動データから推論構造を自動発見し、個人化された推論経路を構築する新たなパラダイム「RPM」を提案し、既存の応答レベルの個人化手法を上回る性能と解釈可能性を実現したことを示しています。

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL