Enhancing multimodal analogical reasoning with Logic Augmented Generation
本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成(LAG)フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。
1723 件の論文
本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成(LAG)フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。
この論文は、LLM と知識グラフを用いて気候変動関連ニュースの科学的正確性を半自動で評価する手法を開発・評価したが、現状では大規模なメディア検証には不十分であり、FAIR な基盤知識の整備が不可欠であると結論付けています。
本論文は、クラウド環境における大規模で動的な仮想マシンスケジューリング問題(ODMBP)に対し、大規模言語モデルを活用して多様な戦略を発見・統合する階層的言語エージェント「MiCo」を提案し、1 万を超える仮想マシンを含む実データセットで 96.9% の競争率を達成する高い汎用性と実用性を示したものである。
本論文は、因果推論における統計的落とし穴(例えば Simpson のパラドックスや選択バイアスなど)を LLM が克服できるかを厳密に評価するための新しいベンチマーク「CausalPitfalls」を提案し、その評価を通じて現在の LLM が統計的因果推論において重大な限界を抱えていることを明らかにしています。
本論文は、複雑な CLI 入力のモデル化におけるデータ不足を解消するため、文法制約と自己教師あり不可縮性信号を用いて Bash 実行挙動を捉える環境「ShIOEnv」を提案し、これにより収集した 210 万組のデータセットが従来の実行フリー手法を上回る精度でユーザー入力の挙動をモデル化できることを示しています。
この論文は、検索結果が矛盾・ノイズ・無効であるような状況における検索拡張言語モデルの推論能力を評価する新たなベンチマーク「SealQA」を提案し、最先端のモデルさえもそのような環境で著しく低い性能を示すことを明らかにしています。
この論文は、自然言語による時間的コンテキスト更新を意思決定プロセスと分離し、推論のみに基づくミドルウェア「LUCIFER」を通じて制御に直接関連する信号に変換する「シグナル契約」を提案し、捜索救助シナリオにおける安全性と情報収集効率の向上を実証したものである。
本論文は、日本の企業開示データ(EDINET)を用いて会計不正検出や収益予測などの高度な金融タスクを評価するオープンソースベンチマーク「EDINET-Bench」を提案し、最先端の LLM でも専門家の判断に迫る性能が得られていない現状を明らかにするとともに、より実務に近い環境での評価枠組みの必要性を提言しています。
本論文は、ジグソーパズルなどの新規タスクを用いた実験により、強微調整(RFT)が教師あり微調整(SFT)に比べて事前知識の保持に優れ、その理由が学習データ分布の方向性と大きさの違いにあることを示し、RFT が安定した継続学習に有効であることを提唱しています。
この論文は、スペイン語圏の言語的多様性と文化的多様性を反映した大規模言語モデル(LLM)の開発を促進するため、スペインおよびラテンアメリカの言語や方言を対象とした初のオープンソース評価リーダーボード「La Leaderboard」を提案し、その評価手法や環境負荷低減のための工夫について解説しています。
本論文は、高品質な英語データの評価信号を単一の評価器に統合し翻訳を通じて多言語データに転送する「MuRating」フレームワークを提案し、これにより多言語大規模言語モデルの事前学習におけるデータ選択の精度と性能を大幅に向上させることを示しています。
本論文は、低リソース言語を含む多言語大規模言語モデルの評価を可能にする、モジュール式でオープンソースの包括的なフレームワーク「EKA-EVAL」を提案し、既存の手法と比較して優れた使いやすさと再現性を示したことを述べています。
本論文は、複雑な視覚的推論を包括的に評価する新たなベンチマーク「TreeBench」を提案し、その課題を克服するために強化学習を用いて局所化と推論を同時に監督するトレーニング手法「TreeVGR」を開発し、最先端モデルの性能向上を実証しています。
この論文は、話者と歌唱の両方に対応し、プロソディやスタイル、音色を柔軟に制御可能な音声生成のための統合フレームワーク「Vevo2」を提案し、その有効性と汎用性を示したものである。
本論文は、大規模言語モデルの量子化が効率化と倫理的配慮のバランスをどう左右するかを多角的に検証し、毒性の低減やセンチメントへの影響のなさといった利点がある一方で、特に激しい圧縮下ではステレオタイプや不公平性がわずかに増大する傾向があることを明らかにしています。
本論文は、音声認識における知識転移の課題である音響表現と言語表現の非対称なアライメントを「検出問題」として捉え、分布の不一致と構造的な非対称性を明示的に処理する非平衡最適輸送に基づくアライメントモデルを提案し、CTC ベースのシステムにおける性能向上を実証したものである。
本論文は、限られた計算資源下でもベトナム語と英語のコードスイッチング音声認識において、PhoWhisper-base などの既存手法を上回る Word Error Rate 19.06% を達成する、拡張ベトナム語音素セットを中間表現とする効率的な 2 段階音素中心アーキテクチャ「TSPC」を提案するものである。
この論文は、ソーシャルメディアの言語データを用いた大規模な縦断研究により、双極性障害の診断前後における言語的変化や季節的な気分変動の周期性を明らかにし、これが従来の精神科コホート研究を補完する価値があることを示しています。
本論文は、Mimi 音声コーデックが生成する多レベルの RVQ トークンを単一シーケンスに平坦化し、単一のトランスフォーマーで自己回帰的にモデル化する「Llama-Mimi」を提案し、階層的モデルを上回る性能と優れた音響的一貫性を達成したことを示しています。
本研究は、LLM を基盤とする音声モデルが自然な会話の流暢性を欠く入力に対して構造的忠実度よりも意味の抽象化を優先する傾向があり、特に推論モデルが過剰な削除を行うことを示し、音声に対する頑健性が特定の学習目的によって形成されることを明らかにしています。