Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes
この論文は、離散的な事象マークと連続的な時間的ダイナミクスを双方向に相互作用させる「NEXTPP」という二経路フレームワークを提案し、不規則な事象シーケンスの予測精度を飛躍的に向上させることを示しています。
3727 件の論文
この論文は、離散的な事象マークと連続的な時間的ダイナミクスを双方向に相互作用させる「NEXTPP」という二経路フレームワークを提案し、不規則な事象シーケンスの予測精度を飛躍的に向上させることを示しています。
本論文は、リアルワールド環境における音声・視覚信号の信頼性が相互作用の段階によって変動する課題に対処するため、各段階でモダリティごとの信頼性を推定・較正し、適応的に融合を行う「SAGE」と呼ばれるフレームワークを提案し、Aff-Wild2 ベンチマークにおいて既存手法を上回る連続的な感情推定性能を実証したものである。
この論文は、自然言語で記述されたイベント定義を少量またはゼロの学習データで多変量時系列信号にマッピングする「知識誘導型時系列イベント検出」という新たな課題に対し、言語記述と物理的データを橋渡しする「イベント論理木(ELT)」を導入し、神経記号的 VLM エージェントと組み合わせて高精度な検出と説明可能な推論を実現する手法を提案し、実世界データに基づくベンチマークでその有効性を示したものです。
本論文は、動画大規模言語モデル(Video-LLM)の「忠実性」と「事実性」に関するハルシネーションを包括的に診断し、視覚劣化や証拠改ざんなどの誘発条件下でのモデルの信頼性を評価する新しいベンチマーク「INFACT」を提案し、ベースモードでの高精度が誘発モードでの安定性を保証しないことを実証しています。
本論文は、ドメインシフト下でのノイズ耐性を高める意味プロンプト機能強化メカニズムと、最適輸送問題として再定式化した微分可能グラフクラスタリングソルバーを導入することで、医療画像セグメンテーションにおける継続的テスト時適応の信頼性と性能を向上させる手法「SPEGC」を提案しています。
この論文は、テキストから画像を生成するモデルにおける安全リスクに対処するため、スパースオートエンコーダを用いて敏感な概念と良性の属性を高精度に分離し、結合ニューロンの部分空間への直交射影によって有害な内容を除去しつつ良性の生成能力を維持する「OrthoEraser」という新たな概念消去手法を提案するものである。
本論文は、既存の攻撃手法では防御されるグラフベースの RAG(GraphRAG)の脆弱性を突くため、知識の進化経路を偽造して知識グラフを汚染し、LLM を意図的な有害な回答に誘導する新たな攻撃手法「KEPo」を提案し、その有効性を実証したものである。
本論文は、ナノフォトニックデバイスの製造ばらつきを予測し不確実性をモデル化するため、設計レイアウトから走査型電子顕微鏡画像に似た多様な高解像度予測を生成する条件付き生成敵対ネットワーク「Gen-Fab」を提案し、既存の手法を上回る精度と汎化性能を実証したものである。
この論文は、LLM 駆動のマルチエージェントシステム「MADA」を提案し、HPC 環境や機械学習サロゲートモデルを活用して Richtmyer-Meshkov 不安定性の抑制など複雑な科学設計空間を自動探索・最適化する手法を示しています。
本論文は、構成画像検索(CIR)モデルが難易度の高い負例において片方のモダリティに偏って注目する「焦点の偏り」を特定する解釈手法 FBCIR を提案し、これに基づいてバランスの取れた推論を促すデータ拡張ワークフローを開発することで、モデルの頑健性を向上させることを示しています。
本論文は、擬似ラベルの信頼性と特徴の忠実度を同時に向上させるため、多様な視覚手がかりを統合したモジュールと擬似ラベルの進化融合手法を提案し、教師なし擬装物体検出において最先端の性能を達成する「EReCu」という統一的なフレームワークを提示しています。
この論文は、バッチ内の他のトークンに依存せず動的な計算割り当てと負荷分散を実現する「Expert Threshold」ルーティング手法を提案し、従来の Token-choice MoE よりも優れた性能と効率的な学習を達成したことを示しています。
本論文は、CLIP などの大規模視覚言語モデルのワンショット適応における安定性と可塑性のジレンマを解決するため、ゼロショット知識と視覚プロトタイプの融合、サポートセットの拡張、分布の補正、マルチスケール RBF カーネルの Ensemble といった多段階のトレーニングフリー手法「ReHARK」を提案し、11 のベンチマークで既存手法を大幅に上回る SOTA 性能を達成したことを報告しています。
この論文は、テキスト、画像、音声、動画、文書など多様なモダリティに特化したツールを中央のスーパーバイザーが動的に調整・統合する自律型 AI フレームワークを提案し、既存の階層型ベースラインと比較して回答までの時間を 72%、会話のやり直しを 85%、コストを 67% 削減しながら精度を維持できることを実証しています。
この論文は、現実世界の複雑な長期的タスクに対応するため、垂直構造を考慮した言語駆動型の多階層 3D 環境生成フレームワーク「MANSION」と、1,000 棟以上の多様な建物を収録したデータセット「MansionWorld」を提案し、既存のエージェントが空間推論において顕著な性能低下を示すことを実証しています。
本論文は、データ収集、学習、実行を単一の VLM 駆動コントローラーで統合し、自己リセットループを可能にする「絡み合った行動ペア(EAP)」を導入することで、長期的なロボットタスクの成功率を 25% 向上させ、人間の介入を 53.7% 削減するアジェンティックフレームワーク「RoboClaw」を提案するものである。
この論文は、臨床診断や投資判断など検証が困難な高リスクな意思決定において、最先端の LLM が「問題の特定はできるが修正ができず、誤ったパターンを高度化しながら繰り返す」という「ヘリコイド動力学」と呼ばれる失敗様式を示すことを明らかにし、信頼性の高い AI 連携に向けた仮説と対策を提案しています。
この論文は、最適化や学習に依存せず、持続的な環境記憶とインセンティブ場を介した適応的相互作用の動的構造そのものとして、多エージェントシステムにおける協調的知性の出現を説明する理論的枠組みを提示しています。
本論文は、自然言語の曖昧さを克服し、複数の目的を同時に満たす大規模言語モデルのタスクを形式数学言語とインフルエンス図を用いて定義し、期待効用最大化を指示する「UtilityMax Prompting」フレームワークを提案し、映画推薦タスクにおいて自然言語ベースラインを上回る精度と NDCG の改善を実証したものである。
本論文は、複素数演算をネイティブに活用して複素スペクトログラムの構造を捉え、位相量子化とブロック行列計算を導入した複素数値ニューラルボコーダ「ComVo」を提案し、合成音質の向上と学習時間の短縮を実現したことを報告しています。