mAVE: A Watermark for Joint Audio-Visual Generation Models
本論文は、既存の音声・動画分離型透かし技術が抱える「交換攻撃」の脆弱性を克服し、音声と動画の潜在空間を暗号的に紐付けることで、生成モデルの著作権保護と真正性保証を可能にする、Joint Audio-Visual 生成モデル専用に設計された新しい透かしフレームワーク「mAVE」を提案するものです。
8714 件の論文
本論文は、既存の音声・動画分離型透かし技術が抱える「交換攻撃」の脆弱性を克服し、音声と動画の潜在空間を暗号的に紐付けることで、生成モデルの著作権保護と真正性保証を可能にする、Joint Audio-Visual 生成モデル専用に設計された新しい透かしフレームワーク「mAVE」を提案するものです。
この論文は、Unity 環境における構造的制約下でゴールプレイパターンに基づいた実行可能ゲームを生成する際、LLM の直接生成よりも人間が作成した中間表現(IR)を用いたパイプラインの方が、コンパイル成功率の向上や構造的な接地性の問題の軽減に有効であることを、26 種類のゴールパターンを用いた実証実験を通じて示しています。
この論文は、生成モデルの推論遅延とユーザー・アイテム間の相互作用不足という課題を解決するため、半自己回帰生成とオンライン知識蒸留を組み合わせた効率的なパーソナライズド再ランク付けフレームワーク「PSAD」を提案し、大規模データセットでの実験によりその高性能と高効率を実証したものである。
この論文は、物理的変換下での物理量の不変性を評価するベンチマーク「ConservationBench」を用いた大規模実験により、現在のビジョン言語モデル(VLM)が動的なシーンにおける物理的変換に関する推論能力を欠き、視覚情報よりもテキストの事前知識に依存して性能が低下することを示しています。
本論文は、LLM による対話要約と手動設計されたペルソナ情報を活用することで、AIWolfDial 2024 向けに開発された狼人間ゲーム AI エージェントの発言の一貫性とキャラクターの維持を向上させたことを報告しています。
この論文は、人間、スクリプト、AI エージェントを区別するために、認知と処理の非対称的な難易度を利用した時間制約付き検証ゲーム「aCAPTCHA」を提案し、自律型 AI エージェントの存在がもたらす新たなセキュリティ課題に対する解決策を提示しています。
本論文は、一般目的の視覚エンコーダの限界と言語モデルのハルシネーションという 2 つの課題を解決するため、専門家の知識を深層に注入し、網膜画像の微細な病変信号を強化して推論を視覚証拠に厳密に固定するデータ効率型フレームワーク「EyExIn」を提案し、眼科 VQA において最先端の精度を達成したことを報告しています。
既存の感情認識手法が捉えきれない複雑な感情ニュアンスを自然言語で記述する新たなタスク「会話における感情書き起こし(ETC)」を提案し、日本語の対話データセットとベンチマークを構築して、明示的・暗黙的な感情状態の理解を促進する研究基盤を提供しています。
この論文は、複雑な自然言語クエリに対するオープンドメインの質問応答を可能にするため、細粒度の型付きクエリ分解とグローバルな接続性認識を組み合わせたテーブル検索手法「DCTR」を提案し、その有効性を検証したものです。
この論文は、推論の各ステップでモデルの内部確信度を最大化する「思考レベルの確信最大化」アプローチを提案し、既存の推論時拡張手法よりも少ない計算コストで数学的推論タスクの精度を向上させることを実証しています。
この論文は、グラフニューラルネットワークを用いて SAT ソルバの初期分岐順序を学習・予測する手法を提案し、ランダムおよび疑似産業ベンチマークで大幅な高速化を実現したが、動的ヒューリスティックが初期値を上書きしやすく予測が困難な複雑な産業インスタンスでは効果が限定的であることを示しています。
この論文は、GenAI ツール、可視化作成、プログラミング環境といった創造的ドメインにおいて、単なる状態変化の記録を超えて意図や高次な創造的動きを捉えるための、それぞれ異なるアプローチ(ノードベースのインターフェース、視覚的キューの語彙、意味的履歴の埋め込み)を提示するものである。
本論文は、大規模言語モデル駆動の自律エージェントが抱える実行層の脆弱性に対処するため、4 層からなるガバナンスアーキテクチャ「LGA」を提案し、独自のバイリンガルベンチマークと広範な実験を通じて、その高い脅威検出率と低遅延な実用性を実証しています。
この論文は、推論経路が非生産的になった際に解決をやり直すことを学習させる「Re²(Reinforcement Learning with Re-solving)」という手法を提案し、事前教師あり学習なしに純粋な強化学習のみで LLM の推論効率と精度を大幅に向上させることを示しています。
この論文は、前頭前野のワーキングメモリが対称性の破れを引き起こし、抑制性結合と相乗的に海馬の機能的側性化を急激に誘発するという、脳神経生物学的に動機付けられたミニチュア・ブレイントランスフォーマーの発見と、その検証結果を報告しています。
VINO は、教師・学生フレームワークと構造的な情報ボトルネックを活用して、動画の自己教師あり学習において背景の文脈に依存しない頑健な物体特徴表現を学習し、PASCAL VOC における物体発見タスクで既存手法を大幅に上回る性能を達成する手法です。
この論文は、Stack Overflow のソーシャルコンテキスト埋め込みを活用した学習順序付け(LTR)ベースのハイブリッドシステムを提案し、開発者がソフトウェアバグの解決策を効率的に見つけられるよう、10 件の回答で約 78% の精度で最適な解決策を推薦する手法を確立したことを報告しています。
本論文は、衛星リモートセンシングデータにおける幾何学的な不整合を解決するため、従来の潜空間補間ではなく、幾何学的な拡張条件に基づいて変換された埋め込みを直接予測する「LEPA」という新しいアーキテクチャを提案し、その精度が大幅に向上することを示しています。
この論文は、異質な目標を持つエージェントが協調するか単独で行動するかを判断するメタレベルの課題に焦点を当て、模倣学習と強化学習の階層的組み合わせを用いた新しいアプローチを提案し、その有効性を示すとともに、チームメイトの行動予測という補助コンポーネントの効果が観測可能な目標情報の量に反比例することを明らかにしています。
この論文は、自律走行のデータ効率を向上させるため、車両の運動学情報を観測エンコーダに統合し、幾何学的な制約を潜在状態に課すことで、RSSM ベースの世界モデルの物理的整合性と長期予測精度を高める新しい枠組みを提案し、シミュレーション環境においてモデルフリーおよびピクセルベースの手法を上回る性能を実証したものです。