StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control
本論文は、感情、速度、音量、ピッチの 4 つの次元における会話中の発話スタイル制御能力を包括的に評価するための多ターン対話ベンチマーク「StyleBench」を提案し、主要な音声言語モデルとオムニ言語モデルのパフォーマンス格差を明らかにしたものである。
1629 件の論文
本論文は、感情、速度、音量、ピッチの 4 つの次元における会話中の発話スタイル制御能力を包括的に評価するための多ターン対話ベンチマーク「StyleBench」を提案し、主要な音声言語モデルとオムニ言語モデルのパフォーマンス格差を明らかにしたものである。
KohakuRAG は、階層的な文書インデックス、LLM 駆動のクエリプランナー、および棄権を考慮したアンサンブル推論を採用することで、高度な精度と正確な出典引用を両立し、WattBot 2025 チャレンジで首位を獲得した新しい RAG フレームワークです。
本論文は、メモリー、通信、計算の各側面を横断する統合最適化と並列化手法を導入し、数千の GPU クラスターで数十億から数兆パラメータ規模の混合専門家(MoE)モデルの効率的なトレーニングを可能にする、生産環境対応のオープンソースフレームワーク「Megatron Core」の技術とシステム設計を詳述しています。
本論文は、大規模なパラメータを含む多様な離散最適化問題を用いた評価を通じて、LLM の性能や CoT 手法の有効性を実証し、自動解決への提言と将来の研究基準を提供するものである。
本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。
本論文は、PCA whitening と固有スペクトル分解を用いることで、埋め込み空間におけるクラスタのコミットメントが幻覚のタイプを幾何学的に分離する指標となり、特に GPT-2-small におけるタイプ 1 と 2 の区別が測定アーチファクトではなくモデル容量の限界によるものであることを示し、さらに微細な信号領域におけるプロンプトセットの感受性という方法論的知見を提供するものである。
この論文は、ハイブリッド RoBERTa エンコーダと大規模言語モデル(LLM)の予測レベルにおけるアンサンブル学習を組み合わせることで、多次元アスペクトベースの感情分析タスクにおける RMSE の大幅な削減と相関スコアの向上を達成したシステムを提案しています。
この論文は、NUMA 間メモリアクセスのオーバーヘッドを軽減し、多数コア CPU プラットフォームにおける LLM 推論のスケーラビリティとスループットを大幅に向上させるため、効率的なメモリ管理とスレッドスケジューリング、および制御されたテンソル並列性を統合した軽量アーキテクチャ「ArcLight」を提案するものです。
本論文は、現代のコード生成モデルが抱えるトレーニングのボトルネックを解決するため、条件付き切り捨てマスクや多様性に基づく温度選択などの3つの革新を導入した「MicroCoder-GRPO」手法と、より高品質なデータセットおよび評価フレームワークを提案し、LiveCodeBench v6 において基線モデルを大幅に上回る性能向上とトレーニングに関する34の洞察を明らかにしたものである。
本論文は、LLM ベースの予測・較正・選択フレームワークを用いた自動難易度フィルタリングを含む 4 段階のデータ処理パイプラインを提案し、これにより構築された高品質な競合プログラミングデータセット「MicroCoder」が、既存のデータセットと比較してコード生成モデルの学習効率と難問に対する性能を大幅に向上させることを実証しています。
本論文は、ネパールという未代表文化圏における大規模言語モデルの社会的バイアスを評価する「二重指標評価(DMBA)」フレームワークを提案し、明示的な同意バイアスと暗黙的な生成バイアスの間に強い相関がないこと、および温度パラメータやドメインによってバイアスの現れ方が異なることを実証しています。
この論文は、ケベック州の保険規制に特化したベンチマーク「AEPC-QA」を用いて大規模言語モデルを評価し、推論時の推論プロセスの重要性、検索拡張生成(RAG)による知識の補完と「文脈の混乱」という逆説的な効果、そして一般化された巨大モデルがドメイン特化型モデルを上回る「特化のパラドックス」といった重要な知見を明らかにしています。
本論文は、DistillGuard というフレームワークを用いて LLM の知識蒸留に対する出力レベルの防御策を体系的に評価した結果、現在の防御手法はタスク依存性が強く、特に単純な攻撃者に対しては広範な知識窃取を防ぐには不十分であることを示しています。
IBM が公開した「AI Steerability 360」は、プロンプト、構造、状態、出力の 4 つの制御面を統一的なパイプラインで操作し、複数の手法を組み合わせることで大規模言語モデルの制御と評価を容易にするオープンソースの Python ツールキットです。
この論文は、ラベル付きデータが利用できない未見のデータセットにおいても、モデル自身の出力パターンを分析して精度を推定し、Text2SQL システムの品質低下を検出する新しい評価手法「FusionSQL」を提案しています。
この論文は、強化学習単独では不十分な探索行動を改善するため、合成されたツール使用軌道を用いて冷たいスタート時の教師あり微調整を強化し、深層研究における探索を促進する「SynPlanResearch-R1」というフレームワークを提案し、複数のベンチマークで最先端の性能向上を実現したことを報告しています。
この論文は、4 万 7 千以上の AI エージェントが参加する初の AI 専用ソーシャルネットワーク「Moltbook」を分析し、その対話システムが自己言及的な内省、儀式的な相互作用、そして感情的な転向という、人間とは構造的に異なる特徴を持つことを明らかにしたものである。
この論文は、既存の評価手法の限界を克服し、実世界の複雑な制約や制御フローを反映した新しいベンチマーク「CCR-Bench」を提案し、最先端の LLM でさえも実用的な指示理解において大きな課題を抱えていることを明らかにしています。
この論文は、粒子フィルタリング(特に逐次モンテカルロ法)の理論的枠組みを用いて、言語モデル推論における並列サンプリング手法の精度とコストのトレードオフを厳密に分析し、その理論的限界と実証的な知見を明らかにしています。
この論文は、長文の学術論文におけるテキスト、表、図にまたがる多段推論を評価し、従来の回答正解率のみでは見逃されがちな証拠の統合や根拠付けの欠陥を特定するための新しいベンチマーク「BRIDGE」を提案するものです。