cs.CL 件の論文 | Gist.Science

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

本論文は、感情、速度、音量、ピッチの 4 つの次元における会話中の発話スタイル制御能力を包括的に評価するための多ターン対話ベンチマーク「StyleBench」を提案し、主要な音声言語モデルとオムニ言語モデルのパフォーマンス格差を明らかにしたものである。

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

KohakuRAG は、階層的な文書インデックス、LLM 駆動のクエリプランナー、および棄権を考慮したアンサンブル推論を採用することで、高度な精度と正確な出典引用を両立し、WattBot 2025 チャレンジで首位を獲得した新しい RAG フレームワークです。

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

本論文は、メモリー、通信、計算の各側面を横断する統合最適化と並列化手法を導入し、数千の GPU クラスターで数十億から数兆パラメータ規模の混合専門家（MoE）モデルの効率的なトレーニングを可能にする、生産環境対応のオープンソースフレームワーク「Megatron Core」の技術とシステム設計を詳述しています。

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

本論文は、大規模なパラメータを含む多様な離散最適化問題を用いた評価を通じて、LLM の性能や CoT 手法の有効性を実証し、自動解決への提言と将来の研究基準を提供するものである。

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

本論文は、PCA whitening と固有スペクトル分解を用いることで、埋め込み空間におけるクラスタのコミットメントが幻覚のタイプを幾何学的に分離する指標となり、特に GPT-2-small におけるタイプ 1 と 2 の区別が測定アーチファクトではなくモデル容量の限界によるものであることを示し、さらに微細な信号領域におけるプロンプトセットの感受性という方法論的知見を提供するものである。

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

この論文は、ハイブリッド RoBERTa エンコーダと大規模言語モデル（LLM）の予測レベルにおけるアンサンブル学習を組み合わせることで、多次元アスペクトベースの感情分析タスクにおける RMSE の大幅な削減と相関スコアの向上を達成したシステムを提案しています。

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

この論文は、NUMA 間メモリアクセスのオーバーヘッドを軽減し、多数コア CPU プラットフォームにおける LLM 推論のスケーラビリティとスループットを大幅に向上させるため、効率的なメモリ管理とスレッドスケジューリング、および制御されたテンソル並列性を統合した軽量アーキテクチャ「ArcLight」を提案するものです。

Yuzhuang Xu, Xu Han, Yuxuan Li, Wanxiang Che2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

本論文は、現代のコード生成モデルが抱えるトレーニングのボトルネックを解決するため、条件付き切り捨てマスクや多様性に基づく温度選択などの3つの革新を導入した「MicroCoder-GRPO」手法と、より高品質なデータセットおよび評価フレームワークを提案し、LiveCodeBench v6 において基線モデルを大幅に上回る性能向上とトレーニングに関する34の洞察を明らかにしたものである。

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

本論文は、LLM ベースの予測・較正・選択フレームワークを用いた自動難易度フィルタリングを含む 4 段階のデータ処理パイプラインを提案し、これにより構築された高品質な競合プログラミングデータセット「MicroCoder」が、既存のデータセットと比較してコード生成モデルの学習効率と難問に対する性能を大幅に向上させることを実証しています。

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

本論文は、ネパールという未代表文化圏における大規模言語モデルの社会的バイアスを評価する「二重指標評価（DMBA）」フレームワークを提案し、明示的な同意バイアスと暗黙的な生成バイアスの間に強い相関がないこと、および温度パラメータやドメインによってバイアスの現れ方が異なることを実証しています。

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

この論文は、ケベック州の保険規制に特化したベンチマーク「AEPC-QA」を用いて大規模言語モデルを評価し、推論時の推論プロセスの重要性、検索拡張生成（RAG）による知識の補完と「文脈の混乱」という逆説的な効果、そして一般化された巨大モデルがドメイン特化型モデルを上回る「特化のパラドックス」といった重要な知見を明らかにしています。

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

本論文は、DistillGuard というフレームワークを用いて LLM の知識蒸留に対する出力レベルの防御策を体系的に評価した結果、現在の防御手法はタスク依存性が強く、特に単純な攻撃者に対しては広範な知識窃取を防ぐには不十分であることを示しています。

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

IBM が公開した「AI Steerability 360」は、プロンプト、構造、状態、出力の 4 つの制御面を統一的なパイプラインで操作し、複数の手法を組み合わせることで大規模言語モデルの制御と評価を容易にするオープンソースの Python ツールキットです。

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

この論文は、ラベル付きデータが利用できない未見のデータセットにおいても、モデル自身の出力パターンを分析して精度を推定し、Text2SQL システムの品質低下を検出する新しい評価手法「FusionSQL」を提案しています。

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

この論文は、強化学習単独では不十分な探索行動を改善するため、合成されたツール使用軌道を用いて冷たいスタート時の教師あり微調整を強化し、深層研究における探索を促進する「SynPlanResearch-R1」というフレームワークを提案し、複数のベンチマークで最先端の性能向上を実現したことを報告しています。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

この論文は、4 万 7 千以上の AI エージェントが参加する初の AI 専用ソーシャルネットワーク「Moltbook」を分析し、その対話システムが自己言及的な内省、儀式的な相互作用、そして感情的な転向という、人間とは構造的に異なる特徴を持つことを明らかにしたものである。

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

この論文は、既存の評価手法の限界を克服し、実世界の複雑な制約や制御フローを反映した新しいベンチマーク「CCR-Bench」を提案し、最先端の LLM でさえも実用的な指示理解において大きな課題を抱えていることを明らかにしています。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

この論文は、粒子フィルタリング（特に逐次モンテカルロ法）の理論的枠組みを用いて、言語モデル推論における並列サンプリング手法の精度とコストのトレードオフを厳密に分析し、その理論的限界と実証的な知見を明らかにしています。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

この論文は、長文の学術論文におけるテキスト、表、図にまたがる多段推論を評価し、従来の回答正解率のみでは見逃されがちな証拠の統合や根拠付けの欠陥を特定するための新しいベンチマーク「BRIDGE」を提案するものです。

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

← 前へ次へ →