TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning
本論文は、LLM の確率的な特性に起因するハルシネーションを軽減するため、記憶に基づく計画剪定、信頼度に基づく行動精緻化、および二重重み付き軌道集約という不確実性認識推論フレームワークを導入し、テーブル推論タスクにおいて既存手法を上回る性能を達成する「TableMind++」を提案するものである。
1072 件の論文
本論文は、LLM の確率的な特性に起因するハルシネーションを軽減するため、記憶に基づく計画剪定、信頼度に基づく行動精緻化、および二重重み付き軌道集約という不確実性認識推論フレームワークを導入し、テーブル推論タスクにおいて既存手法を上回る性能を達成する「TableMind++」を提案するものである。
この論文は、アクセント付きの学習データを必要とせず、異なる言語のネイティブ音声で微調整されたタスクベクトルを操作することで、多言語 TTS においてアクセントの強さや混合を細かく制御可能にする「Accent Vector」という手法を提案し、その有効性を示したものです。
イスラム法における複雑な相続計算を評価するための大規模なデータセット「MAWARITH」と多段階評価指標「MIR-E」を提案し、既存のモデルが推論の全段階で課題を抱えていることを示した研究です。
この論文は、大規模なアクセント付きデータや学習を必要とせず、音韻規則と多言語 TTS モデルを組み合わせることで、音声の明瞭さを保ちながらスペイン語やインド英語などのアクセントを音素レベルで制御可能な新しい音声合成フレームワークを提案するものである。
ネパール語(ネワール語)の音声認識におけるリソース不足を解消するため、5.39 時間の手書き転写コーパス「Nwāchā Munā」を公開し、大規模多言語モデルに匹敵する性能を、近隣言語であるネパール語からの転移学習によって達成したことを報告する論文です。
本論文は、API の進化に伴うコードの移行タスクを、構造化された知識グラフを用いた経路検索と経路に基づくコード生成の 2 段階に分解することで、大規模言語モデルの限界を克服し、移行精度と実行成功率を大幅に向上させるフレームワーク「KCoEvo」を提案しています。
本論文は、感情、速度、音量、ピッチの 4 つの次元における会話中の発話スタイル制御能力を包括的に評価するための多ターン対話ベンチマーク「StyleBench」を提案し、主要な音声言語モデルとオムニ言語モデルのパフォーマンス格差を明らかにしたものである。
KohakuRAG は、階層的な文書インデックス、LLM 駆動のクエリプランナー、および棄権を考慮したアンサンブル推論を採用することで、高度な精度と正確な出典引用を両立し、WattBot 2025 チャレンジで首位を獲得した新しい RAG フレームワークです。
本論文は、メモリー、通信、計算の各側面を横断する統合最適化と並列化手法を導入し、数千の GPU クラスターで数十億から数兆パラメータ規模の混合専門家(MoE)モデルの効率的なトレーニングを可能にする、生産環境対応のオープンソースフレームワーク「Megatron Core」の技術とシステム設計を詳述しています。
本論文は、大規模なパラメータを含む多様な離散最適化問題を用いた評価を通じて、LLM の性能や CoT 手法の有効性を実証し、自動解決への提言と将来の研究基準を提供するものである。
本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。
本論文は、PCA whitening と固有スペクトル分解を用いることで、埋め込み空間におけるクラスタのコミットメントが幻覚のタイプを幾何学的に分離する指標となり、特に GPT-2-small におけるタイプ 1 と 2 の区別が測定アーチファクトではなくモデル容量の限界によるものであることを示し、さらに微細な信号領域におけるプロンプトセットの感受性という方法論的知見を提供するものである。
この論文は、ハイブリッド RoBERTa エンコーダと大規模言語モデル(LLM)の予測レベルにおけるアンサンブル学習を組み合わせることで、多次元アスペクトベースの感情分析タスクにおける RMSE の大幅な削減と相関スコアの向上を達成したシステムを提案しています。
この論文は、NUMA 間メモリアクセスのオーバーヘッドを軽減し、多数コア CPU プラットフォームにおける LLM 推論のスケーラビリティとスループットを大幅に向上させるため、効率的なメモリ管理とスレッドスケジューリング、および制御されたテンソル並列性を統合した軽量アーキテクチャ「ArcLight」を提案するものです。
本論文は、現代のコード生成モデルが抱えるトレーニングのボトルネックを解決するため、条件付き切り捨てマスクや多様性に基づく温度選択などの3つの革新を導入した「MicroCoder-GRPO」手法と、より高品質なデータセットおよび評価フレームワークを提案し、LiveCodeBench v6 において基線モデルを大幅に上回る性能向上とトレーニングに関する34の洞察を明らかにしたものである。
本論文は、LLM ベースの予測・較正・選択フレームワークを用いた自動難易度フィルタリングを含む 4 段階のデータ処理パイプラインを提案し、これにより構築された高品質な競合プログラミングデータセット「MicroCoder」が、既存のデータセットと比較してコード生成モデルの学習効率と難問に対する性能を大幅に向上させることを実証しています。
本論文は、ネパールという未代表文化圏における大規模言語モデルの社会的バイアスを評価する「二重指標評価(DMBA)」フレームワークを提案し、明示的な同意バイアスと暗黙的な生成バイアスの間に強い相関がないこと、および温度パラメータやドメインによってバイアスの現れ方が異なることを実証しています。
この論文は、ケベック州の保険規制に特化したベンチマーク「AEPC-QA」を用いて大規模言語モデルを評価し、推論時の推論プロセスの重要性、検索拡張生成(RAG)による知識の補完と「文脈の混乱」という逆説的な効果、そして一般化された巨大モデルがドメイン特化型モデルを上回る「特化のパラドックス」といった重要な知見を明らかにしています。
本論文は、DistillGuard というフレームワークを用いて LLM の知識蒸留に対する出力レベルの防御策を体系的に評価した結果、現在の防御手法はタスク依存性が強く、特に単純な攻撃者に対しては広範な知識窃取を防ぐには不十分であることを示しています。
IBM が公開した「AI Steerability 360」は、プロンプト、構造、状態、出力の 4 つの制御面を統一的なパイプラインで操作し、複数の手法を組み合わせることで大規模言語モデルの制御と評価を容易にするオープンソースの Python ツールキットです。