Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System
本論文は、異なる SQL 方言を持つ多様なデータベースシステムに対応し、構文と意味の両面で正確なクエリ生成を実現するために、方言認識論理クエリ計画モジュール、階層的意図認識知識ベース、および実行駆動型デバッグループを導入した「Dial」という知識基盤型 NL2SQL 枠組みを提案し、新しいベンチマーク DS-NL2SQL による実験で最先端手法を上回る性能を示したものである。
1071 件の論文
本論文は、異なる SQL 方言を持つ多様なデータベースシステムに対応し、構文と意味の両面で正確なクエリ生成を実現するために、方言認識論理クエリ計画モジュール、階層的意図認識知識ベース、および実行駆動型デバッグループを導入した「Dial」という知識基盤型 NL2SQL 枠組みを提案し、新しいベンチマーク DS-NL2SQL による実験で最先端手法を上回る性能を示したものである。
この論文は、VAE、GAN、拡散モデルなど過去 10 年間の画像生成モデルの技術的変遷を包括的に調査し、各モデルの技術詳細や限界、動画生成への発展、そして深層偽造リスクや責任ある展開といった倫理的課題までを網羅的に解説するものである。
この論文は、アテンションとフィードフォワードをそれぞれ異なるストリームで処理する「デュアルストリームトランスフォーマー」を提案し、ヘッド間の混合戦略を調整することで解釈性と性能のトレードオフを明示的に制御可能にしつつ、注意機構の増幅に対する頑健性を示したものである。
この論文は、画像エンコーダと言語モデル(LM)を凍結したビジョン言語モデルにおいて、画像からの明示的なハイパーニム(上位概念)の証拠を完全に排除しても、言語モデルが事前学習した言語的知識とカテゴリー内の視覚的類似性に基づき、ハイパーニムを回復・一般化できることを示しています。
この論文は、拡散言語モデルが自己回帰モデルとは異なる階層的な表現構造と早期層の冗長性を有していることを発見し、これに基づいてアーキテクチャ変更なしに推論時のレイヤースキップを適用することで、性能を維持しつつ最大 18.75% の FLOPs 削減を実現する手法を提案しています。
この論文は、臨床テキストからの概念認識、アサーション分類、関係抽出という 3 つのタスクを独立して処理する従来のパイプライン手法の課題を解決し、これらを統合的に最適化するエンドツーエンドのニューラルネットワーク基線モデルを提案し、その有効性を示すものです。
本論文は、ゼロショット多言語モデルでは不十分であったカシミール語の音声合成に対し、OT-CFM に基づく監督適応と音響前処理パイプラインを導入した初のオープンソースシステム「Bolbosh」を提案し、話者評価や音質指標において大幅な性能向上を達成したことを報告するものである。
本論文は、LLM の確率的な特性に起因するハルシネーションを軽減するため、記憶に基づく計画剪定、信頼度に基づく行動精緻化、および二重重み付き軌道集約という不確実性認識推論フレームワークを導入し、テーブル推論タスクにおいて既存手法を上回る性能を達成する「TableMind++」を提案するものである。
この論文は、アクセント付きの学習データを必要とせず、異なる言語のネイティブ音声で微調整されたタスクベクトルを操作することで、多言語 TTS においてアクセントの強さや混合を細かく制御可能にする「Accent Vector」という手法を提案し、その有効性を示したものです。
イスラム法における複雑な相続計算を評価するための大規模なデータセット「MAWARITH」と多段階評価指標「MIR-E」を提案し、既存のモデルが推論の全段階で課題を抱えていることを示した研究です。
この論文は、大規模なアクセント付きデータや学習を必要とせず、音韻規則と多言語 TTS モデルを組み合わせることで、音声の明瞭さを保ちながらスペイン語やインド英語などのアクセントを音素レベルで制御可能な新しい音声合成フレームワークを提案するものである。
ネパール語(ネワール語)の音声認識におけるリソース不足を解消するため、5.39 時間の手書き転写コーパス「Nwāchā Munā」を公開し、大規模多言語モデルに匹敵する性能を、近隣言語であるネパール語からの転移学習によって達成したことを報告する論文です。
本論文は、API の進化に伴うコードの移行タスクを、構造化された知識グラフを用いた経路検索と経路に基づくコード生成の 2 段階に分解することで、大規模言語モデルの限界を克服し、移行精度と実行成功率を大幅に向上させるフレームワーク「KCoEvo」を提案しています。
本論文は、感情、速度、音量、ピッチの 4 つの次元における会話中の発話スタイル制御能力を包括的に評価するための多ターン対話ベンチマーク「StyleBench」を提案し、主要な音声言語モデルとオムニ言語モデルのパフォーマンス格差を明らかにしたものである。
KohakuRAG は、階層的な文書インデックス、LLM 駆動のクエリプランナー、および棄権を考慮したアンサンブル推論を採用することで、高度な精度と正確な出典引用を両立し、WattBot 2025 チャレンジで首位を獲得した新しい RAG フレームワークです。
本論文は、メモリー、通信、計算の各側面を横断する統合最適化と並列化手法を導入し、数千の GPU クラスターで数十億から数兆パラメータ規模の混合専門家(MoE)モデルの効率的なトレーニングを可能にする、生産環境対応のオープンソースフレームワーク「Megatron Core」の技術とシステム設計を詳述しています。
本論文は、大規模なパラメータを含む多様な離散最適化問題を用いた評価を通じて、LLM の性能や CoT 手法の有効性を実証し、自動解決への提言と将来の研究基準を提供するものである。
本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。
本論文は、PCA whitening と固有スペクトル分解を用いることで、埋め込み空間におけるクラスタのコミットメントが幻覚のタイプを幾何学的に分離する指標となり、特に GPT-2-small におけるタイプ 1 と 2 の区別が測定アーチファクトではなくモデル容量の限界によるものであることを示し、さらに微細な信号領域におけるプロンプトセットの感受性という方法論的知見を提供するものである。
この論文は、ハイブリッド RoBERTa エンコーダと大規模言語モデル(LLM)の予測レベルにおけるアンサンブル学習を組み合わせることで、多次元アスペクトベースの感情分析タスクにおける RMSE の大幅な削減と相関スコアの向上を達成したシステムを提案しています。