S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation
本論文は、大規模教師モデルからの蒸留と、予算感知動的計画法に基づく「サンドイッチ」構造の効率的なアテンション機構を組み合わせることで、iPhone 上で 10FPS 超のストリーミング生成を実現しつつ、サーバー級の高品質な動画生成を可能にする「S2DiT」を提案する。
6441 件の論文
本論文は、大規模教師モデルからの蒸留と、予算感知動的計画法に基づく「サンドイッチ」構造の効率的なアテンション機構を組み合わせることで、iPhone 上で 10FPS 超のストリーミング生成を実現しつつ、サーバー級の高品質な動画生成を可能にする「S2DiT」を提案する。
本論文は、報酬が均等である制約付き契約設計の問題を研究し、多様な報酬関数に対する近似アルゴリズムと計算量的困難性の結果を示すとともに、公平性による効用損失(価格の均等性)の厳密な評価を提供し、制約なしの契約設計における未解決問題も解決したものである。
本論文は、視覚と自己位置推定(プロプリオセプション)のバランスを再調整し、タスク進行に応じた視覚的手がかりを導入することで、視覚言語行動モデルにおける「失敗した実行を完了したと誤認する」現象を解決し、新しいベンチマークと ReViP というフレームワークを提案する研究です。
本論文では、3,847 時間の運転動画と多粒度の注釈データに基づく大規模な第一人称視点のベンチマーク「ScenePilot-Bench」を提案し、自律運転シナリオにおけるビジョン・ランゲージモデルの性能評価と安全性向上のための包括的な枠組みを提供しています。
この論文は、音声の周波数特性と質問文の文脈を空間・時間・周波数領域で統合的に相互作用させる「QSTar」手法と「QCR」ブロックを提案し、既存の手法よりも優れた音楽音声・視覚質問応答(AVQA)の性能達成を実現したことを示しています。
この論文は、固定定数 に対して、Nagamochi-Ibaraki 疎性証明書とリンク・カット木を組み合わせることで辺の挿入を、最大流計算を用いることで辺の削除をそれぞれ効率的に処理し、 本の辺を維持しながら -辺連結性を動的に保守するフレームワークを提案するものである。
本論文は、RNA-seq やバリアントコーリングなどのバイオインフォマティクスタスクにおける AI エージェントの性能と堅牢性を評価するためのベンチマーク「BioAgent Bench」を提案し、最先端モデルが複雑なパイプラインを構築できる一方で、入力改変などの摂動に対する脆弱性や、プライバシー制約下でのオープンウェイトモデルの有用性を明らかにしたことを述べています。
本論文は、強化学習による大規模言語モデルの人間との整合性確保において生じる報酬過最適化問題を解決するため、事前学習済みモデルのセマンティック表現に依存する従来の手法を超え、強化学習中のポリシー分布のリアルタイムな変化を反映する「R2M(リアルタイム整合報酬モデル)」という軽量フレームワークを提案しています。
本論文は、DeBERTa、RoBERTa、FinBERT の 3 つの LLM を用いたニュース感情分析と株価予測モデルを統合評価し、DeBERTa が単独で 75% の精度を達成し、3 モデルのアンサンブルでは 80% まで向上すること、および感情分析特徴量が LSTM や PatchTST などの予測モデルにわずかながら有益であることを示しています。
本論文は、中国の退職女性ダンサーを対象とした共同デザイン研究を通じて、年齢に配慮したインタラクティブ技術と生成 AI を活用することで、彼女らが受動的なパフォーマーから舞台演出の共創者へと転換し、自己表現を強化できることを示しています。
本論文は、システムダイナミクスや観測条件の急激な変化に対処するため、潜在表現を適応的に再構成しつつ安全性を保証する「認知的柔軟性制御」フレームワーク(CF-DeepSSSM)を提案し、その閉ループ安定性や再帰的実行可能性を保証するとともに、シミュレーションを通じてその有効性を示しています。
本論文は、3,000 時間のデモンストレーションデータと 5 段階のカリキュラム学習、および RL による政策整合を採用し、ヒューマノイドや可動マニピュレータなど多様なロボット形態に汎用的に適用可能で、安全性と長期的なタスク遂行能力を向上させた Vision-Language-Action モデル「Green-VLA」を提案するものである。
本論文は、AI チャットボットがユーザーの精神疾患の脆弱性を増幅する「脆弱性増幅相互作用ループ(VAILs)」という体系的な失敗モードを特定し、これを検出・評価するためのスケーラブルな監査フレームワーク「SIM-VAIL」を提案したものである。
本論文は、大規模視覚言語モデル(VLM)を用いたロボットエージェントの実世界における長期的な閉ループ実行能力を評価するため、未構造化環境でのタスク分解やオンライン検証、再計画を含むモデル非依存のロボットプラットフォーム「AgenticLab」とそのベンチマークを提案し、従来のオフライン評価では捉えられなかった多段階のグランドイング不整合や視覚的障害、空間推論の限界などの失敗モードを明らかにしたものである。
本論文は、5G 車載エッジ通信における低遅延・高信頼性要件を満たすため、Sionna LDPC5G ベースラインを用いたマイクロベンチマークにより、GPU によるオフロードが LDPC 復号のスループット向上と CPU 負荷の軽減をもたらし、エッジ RSU プラットフォームでの物理層計算マージンの確保に寄与することを示しています。
本論文は、LLM 生成コードの構造的な脆弱性がフロントエンド特徴から予測可能であることを示す「FSTab」フレームワークを提案し、ブラックボックス環境下での攻撃成功率 94% などの高い転移性を確認することで、コード生成における新たなセキュリティリスクを明らかにした。
この論文は、大規模言語モデルを活用してレビューテキストなどからユーザーとアイテムの動機を抽出・統合し、ノイズや意味のズレを抑制する新たな推薦フレームワーク「LMMRec」を提案し、既存手法を最大 4.98% 上回る性能向上を実証したものです。
本研究は、72 人の参加者を用いた比較分析により、問題解決能力における自己評価尺度と行動ベースのゲーム型アセスメントの間に有意な一致が見られなかったことを示し、両者が相互補完的な情報を提供し、採用選考において多面的な評価枠組みの統合が重要であることを提言しています。
本論文は、Doob の h 変換とマルティンゲール理論に基づき、事前学習済み拡散モデルのスコアネットワークを変更することなく、確率 1 で制約を満たす硬制約付き条件生成を実現するガイダンス手法と、その誤差解析およびオフポリシー学習アルゴリズムを提案するものである。
この研究は、母親が社会的な批判を避けて育児の不安や罪悪感を解消するために、LLM を非審判的な情緒的支援ツールとして活用する傾向がある一方で、多くの母親は依然として人間の温かみを重視しており、LLM は人間の支援を代替するものではなく、社会的文脈に依存した低リスクな支援として位置づけるべきであることを示しています。