AI Blob! LLM-Driven Recontextualization of Italian Television Archives
本論文は、イタリアのテレビ番組『Blob』の手法に触発され、音声認識、意味的埋め込み、検索拡張生成(RAG)技術を統合してアーカイブ映像を自動で再文脈化し、新たな物語的モンタージュを生成する実験システム「AI Blob!」の設計と、メディア史研究および AI 駆動型アーカイブ研究への貢献を提示しています。
10862 件の論文
本論文は、イタリアのテレビ番組『Blob』の手法に触発され、音声認識、意味的埋め込み、検索拡張生成(RAG)技術を統合してアーカイブ映像を自動で再文脈化し、新たな物語的モンタージュを生成する実験システム「AI Blob!」の設計と、メディア史研究および AI 駆動型アーカイブ研究への貢献を提示しています。
本論文は、日常活動に限定された既存のベンチマークの限界を克服し、手術、産業、極限スポーツ、動物視点など多様なドメインにまたがる egocentric 動画の質問応答におけるマルチモーダル大規模言語モデルのドメイン横断一般化能力を評価するための包括的なベンチマーク「EgoCross」を提案し、既存モデルの限界と改善の可能性を示したものです。
この論文は、テキスト形式のシラバスが学生に十分に理解されないという課題に対し、AI 生成音楽と仮想アバターを用いてシラバスを歌って提示する新しい手法を提案し、学生の関心と情報定着率を向上させたことを報告しています。
本論文は、BERT ベースのモデルの推論能力の限界と大規模言語モデル(LLM)の実用課題を克服するため、CoT による推論の注入、DPO による生成品質の向上、GRPO による幻覚の抑制、および効率的なオンライン展開を可能にする 3 段階のフレームワーク「TaoSR1」を提案し、EC 検索における商品関連性予測の性能を大幅に向上させたことを示しています。
この論文は、生成エージェントと仮想民族誌的手法を統合し、研究者を外部操作者から没入型参加者へと転換させることで、複雑な社会現象のシミュレーションと因果的な介入分析を可能にする計算的多エージェント社会実験フレームワーク「CMASE」を提案しています。
この論文は、大規模なドメイン固有データへの依存を大幅に削減しつつ、クロスモーダル知識グラフと専用物体検出モデルを統合することで、Minecraft 環境における高品質なエージェント構築を実現するコスト効率の高いフレームワーク「VistaWise」を提案しています。
この論文は、推論コストの増大や精度低下を招く過剰な Chain-of-Thought を回避するため、事前出力に基づいて動的に閾値を調整し推論を圧縮する適応型フレームワーク「SEER」を提案し、コード生成や数学タスクにおいて推論効率と精度の両立を実現することを示しています。
この論文は、大規模言語モデルによるコード変異エージェント「AlphaEvolve」を活用して、MAX-CUT やメトリック TSP などの組合せ最適化問題における近似不可能性の新たな下限を導出するガジェット構成を発見し、検証プロセス自体も AI によって高速化することで、複雑性理論の進展に AI が貢献できることを示した研究です。
本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。
この論文は、多様な歪みから 48kHz の高品質な音声を一ステップで復元する汎用音声復元モデル「VoiceBridge」を提案し、エネルギー保存型 VAE、結合型ニューラル事前分布、および生成器への転換を可能にする橋渡し学習手法によって、蒸留なしで高性能な音声復元を実現することを示しています。
本論文は、視覚的手がかりと環境音の両方を用いた動画のユーモア理解を評価するための新しいベンチマーク「v-HUB」を提案し、マルチモーダル大規模言語モデルの現状の課題と音声モダリティの重要性を実証しています。
音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。
本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。
本論文は、ナビゲーションエージェントの空間知能を体系的に評価する新しいベンチマーク「NavSpace」と、それにおいて既存モデルを上回る性能を示す新しいナビゲーションモデル「SNav」を提案するものである。
本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。
本論文は、生成タスクにおいて従来のエキスパートマージ手法よりも優位性を示し、ルーターゲート値とエキスパート活性化ノルムを考慮した新たな剪定基準「REAP」を提案することで、大規模なSMoEモデルの50% 剪定においてもコード生成などのタスクでほぼ損失のない圧縮を実現することを明らかにしています。
本論文は、拡散ビジョモーターポリシーを基盤とした実世界強化学習フレームワーク「RL-100」を提案し、模倣学習と強化学習を統合して 1000 回の試行で 100% の成功率を達成し、人間を超える性能と高い汎用性・頑健性を示したことを報告しています。
本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。
この論文は、離散的な人間 - 物体相互作用表現と自然言語を統合した新しいフレームワーク「SynHLMA」を提案し、可動部を持つ物体に対する言語指示に基づく一連の巧みな把持動作を生成・予測・補間することを可能にするものである。
この論文は、グラフ基礎モデルの発展に伴い未探索であったグラフドメイン逐次学習(Domain-IL)における catastrophic forgetting を、埋め込みのシフトと決定境界の逸脱を防ぐための知識の解離と保存を可能にする「GraphKeeper」を提案し、既存手法を大幅に上回る性能で達成したことを示しています。