Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
この論文は、人間の感情表現の曖昧さを単一のラベルではなく分布として捉え、大規模オーディオ言語モデルの推論能力を向上させるための分布推論アプローチと構造化された思考連鎖指導を提案し、IEMOCAP や CREMA-D などのデータセットで複数の学習戦略において一貫した改善を実証した研究です。
8827 件の論文
この論文は、人間の感情表現の曖昧さを単一のラベルではなく分布として捉え、大規模オーディオ言語モデルの推論能力を向上させるための分布推論アプローチと構造化された思考連鎖指導を提案し、IEMOCAP や CREMA-D などのデータセットで複数の学習戦略において一貫した改善を実証した研究です。
本論文は、大規模言語モデルにおける「継続トリガー型」のジャイルブレイク現象が、モデルの継続駆動力と安全対策との間の競合に起因し、特定の注意ヘッドのメカニズムを解明することで、その内在的なメカニズムを初めて体系的に解明したものである。
本論文は、MICCAI 2024 で公開された UWF4DR チェレンジデータセットを用い、深層学習モデル(CNN、ViT、基盤モデル)と広視野画像(UWF)を組み合わせることで、画像品質評価、参照可能な糖尿病網膜症の検出、および糖尿病性黄斑浮腫の検出という 3 つの臨床タスクにおいて高い性能を達成し、特徴レベルの融合や周波数領域表現の有効性を示した研究です。
本論文は、トークン、軌道、ドメインなどの多層的なスケールにまたがる大規模言語モデルの安定性制御を可能にするため、信頼領域最適化と代数的ファイバー束構造を統合した「Fibration Policy Optimization(FiberPO)」という新しい方策最適化フレームワークを提案するものです。
この論文は、金融分野における大規模言語モデルのエージェント評価のために、760 個の実行可能な金融ツールと 295 個の厳密なクエリを備えた世界初のリアルワールドベンチマーク「FinToolBench」と、それに伴う評価フレームワークおよびベースライン手法「FATR」を提案するものである。
この論文は、大規模な金融言語モデルのバイアス検出における計算コストを削減するため、異なるモデル間でバイアス検出入力に共通パターンが存在することを実証し、他モデルの出力をガイドとして活用することで検出効率を大幅に向上させる手法を提案しています。
本論文は、VLM(視覚言語モデル)とモンテカルロ木探索を活用してテスト時の計算リソースを拡張し、文脈に応じた軌道の反復的洗練を通じてロボットの模倣学習の成功率を大幅に向上させる「SAIL」というフレームワークを提案しています。
この論文は、グラフニューラルネットワーク(GNN)が学習データにおけるノイズとなる統計的相関(偽の相関)に依存して一般化性能が低下する問題を解決するため、ヒルベルト・シュミット独立基準(HSIC)を用いてこれらの相関を特定・抑制し、分布外(OOD)を含む様々な条件下で高い汎化性能を実現する新しいフレームワーク「SCL-GNN」を提案しています。
この論文は、RIKER 評価手法を用いた大規模な実証研究により、ドキュメント Q&A における LLM の幻覚発生率が文脈長とともに急増し、モデル選択が最も重要な要因である一方、ハードウェアプラットフォームには依存しないことを明らかにした。
本論文は、文化的安全性と文化的知識の相関が低いという発見に基づき、両者を統合的にモデル化し、専門的な知識を生成プロセスに組み込むことで大規模言語モデルの文化的安全性を向上させる新しいフレームワーク「AdaCultureSafe」を提案しています。
本論文は、電子カルテの不規則な時間構造と複雑な疾患経過を考慮し、SNOMED 基準の医学概念と階層的注意機構を組み合わせた「TA-RNN-Medical-Hybrid」という新しい深層学習フレームワークを提案し、集中治療室における死亡率予測の精度向上と臨床的に意味のある解釈可能性の両立を実現したことを報告しています。
EPSRC の助成金申請書 6 件を用いた構造的摂動評価により、LLM による審査はセクション別分析が最も有効である一方、現状では完全な代替ではなく補完的な役割に留まり、明瞭さの欠陥の検出や評価の優先順位に課題があることを明らかにしました。
本論文は、航空機エンジンブレードの検査記録の改ざん防止と監査可能性を確保するため、Hyperledger Fabric 基盤のブロックチェーンシステム「BladeChain」を提案し、AI による欠陥検出モデルのトレーサビリティ、自動検査スケジューリング、およびマルチステークホルダー間の改ざん耐性のあるライフサイクル追跡を実現したことを示しています。
この論文は、線形対角ネットワークにおけるシャープネス感知最小化(SAM)の暗黙的バイアスを研究し、特に深さのケースにおいて、初期値依存性や「逐次特徴増幅」と呼ばれる現象を通じて、無限時間収束の分析だけでは捉えられない動的な振る舞いが生じることを明らかにしています。
本論文は、視覚とテキストの両方を含む数学的問題解決における既存モデルの課題を踏まえ、構造化された知覚、明示的なアライメント、検証可能な推論を統合した新たなパラダイムを提案し、多モーダル数学推論の手法を「抽出」「表現とアライメント」「推論」「評価」の 4 つの観点から体系的に分析するとともに、今後の研究課題と展望を論じています。
この論文は、境界条件が変化するパラメータ依存の偏微分方程式に対して、従来のモデル順序縮約法の限界を克服し、計算領域のパラメータ記述から解への効率的なマッピングを学習する「グラフ指示ニューラルネットワーク(GINN)」という新たな手法を提案し、その有効性を示すものである。
本論文は、放射線レポートに基づいて 3D 視覚言語エンコーダで関連する臨床事例を検索し、その解剖学的注釈を ControlNet を介して注入することで、テキスト条件付き潜在拡散モデルを用いた CT 画像生成において、意味的な制御と解剖学的な整合性を両立させる新しい手法を提案するものです。
本論文は、大規模言語モデルと視覚言語モデルを用いて自動生成された概念マスクに基づき、ビジョン・トランスフォーマーの内部関連性マップを最適化することで、背景などの偽相関への依存を減らし、分布外データに対する頑健性と解釈可能性を向上させる新しいファインチューニング手法を提案し、その有効性を複数のベンチマークで実証したものである。
この論文は、Epic Kitchens データセットから作成された最小識別可能領域(MIRCs)を用いた大規模な人間と AI の比較研究を通じて、人間が空間的・時間的制約下でも手と物体の相互作用などの重要な視覚的手がかりに依存して行動認識を行うのに対し、AI モデルは文脈や低レベルの特徴に依存し、人間とは異なる認識パターンを示すことを明らかにしています。
本論文は、構造化された推論トレースと知識グラフに基づく安全性検証を組み合わせたニューロシンボリックフレームワーク「CORE-Acu」を提案し、鍼灸臨床意思決定支援において推論の解釈可能性を高め、幻覚を防止して安全性を厳格に保証する手法を示しています。