Pathwise Test-Time Correction for Autoregressive Long Video Generation
この論文は、長期動画生成におけるエラー蓄積の問題を、トレーニング不要で初期フレームを基準にサンプリング経路を補正する「Test-Time Correction(TTC)」という手法により解決し、既存のテスト時間最適化法よりも安定した高品質な 30 秒動画生成を実現することを提案しています。
1863 件の論文
この論文は、長期動画生成におけるエラー蓄積の問題を、トレーニング不要で初期フレームを基準にサンプリング経路を補正する「Test-Time Correction(TTC)」という手法により解決し、既存のテスト時間最適化法よりも安定した高品質な 30 秒動画生成を実現することを提案しています。
この論文は、単一画像からの法線推定における 3 次元位置の不一致問題を解決するため、法線推定を画像生成モデルを用いたシェーディングシーケンス推定として再定義し、合成データで学習した RoSE という手法を提案し、実世界ベンチマークで最先端の性能を達成したことを報告しています。
この論文は、経験再生、学習可能なリーキー・インテグレート・アンド・ファイア(LIF)ニューロンパラメータ、および適応型スパイクスケジューラを統合したエネルギー意識スパイク予算枠組みを提案し、フレームベースおよびイベントベースの両方のデータセットにおいて、精度向上とエネルギー効率の最適化を同時に実現するスパイクニューラルネットワークの継続学習手法を開発したものである。
この論文は、情報理論的観点からマルチモーダル学習におけるモダリティ間の競合を分析し、特徴とラベル間の総相関を最大化する新たな手法「TCMax」を提案することで、既存の手法を上回る分類性能を実現したことを示しています。
この論文は、拡散モデルの推論遅延を軽減しつつ中間軌道の構造情報を保持するために、教師の軌道の各離散ステップに対応する複数のブランチを備えた学生モデルを提案し、密な軌道アライメントを通じて生成品質を向上させる「B-DENSE」と呼ばれる新しいフレームワークを紹介しています。
本論文は、臨床現場で利用可能な外部ガイダンスに依存せず、生成モデル自身が欠損状態を自己認識して推論する「CoPeDiT」という新しい 3D MRI 合成フレームワークを提案し、欠損モダリティやスライスの補完において最先端の手法を上回る高忠実度かつ構造的に整合性の高い結果を実現したことを報告しています。
本論文は、クラス共有 LoRA と画像固有 LoRA を組み合わせ、セマンティックなボスト手法とディリクレ分布に基づく混合生成を採用することで、データ不足領域において多様性と詳細さを両立した合成データを生成し、下流タスクの分類精度を向上させる「ChimeraLoRA」を提案するものである。
本論文は、sparse 教師ありセグメンテーション、知識に基づく制約推論、多基準意思決定分析という 3 つの手法を統合したニューロ記号フレームワーク「OrthoAI」を提案し、マウスピース矯正における 3D 歯のセグメンテーションと生体力学的妥当性の推論を自動化するものである。
この論文は、Grounding DINO 1.5 と YOLOv11 を検出器として、Segment Anything Model 2.1(SAM 2.1)を共有バックボーンに用いた二重パイプライン手法を提案し、鳥の画像セグメンテーションにおいてゼロショットおよび教師あり学習の両方で従来の手法を上回る性能を達成したことを報告しています。
本論文は、文書偽造検出のゼロショットベンチマーク「DOCFORGE-BENCH」を提案し、既存手法が事前学習済み重みのままでは閾値の較正失敗により実用できないことを示し、再学習ではなく閾値の適応が実運用におけるボトルネックの解決鍵であることを明らかにしています。
この論文は、トレーニング時に特権的な 4 次元情報(3D 点の軌跡予測)を活用して VLA モデルに物理的な世界動態の理解を付与する「Pri4R」を提案し、推論時のオーバーヘッドなしにロボット操作タスクの性能を大幅に向上させることを示しています。
本論文は、GAP9、STM32N6、Sony IMX500 の 3 つの代表的なプロセッサを用いたベンチマーク評価と包括的なレビューを通じて、超低電力エッジ AI プロセッサの設計動向と、特にインセンサー処理の技術的成熟度や実用的なトレードオフを明らかにしています。
この論文は、CLIP ベースの視覚エンコーダが抱える細粒度理解の課題と DINOv3 が持つ粗粒度抽象化の欠点を補うため、テキスト入力に応じて視覚抽象化レベルを動的に調整する「Granulon」という新しいマルチモーダル大規模言語モデルを提案し、単一のフォワードパスでピクセルから粗粒度までを統合的に推論可能にすることで、精度の向上とハルシネーションの削減を実現したことを示しています。
この論文は、3D ガウススプラッティングの品質を損なわずにロバストな透かし埋め込みを実現し、どのガウスプリミティブに情報を埋め込み、なぜそれが選択されたかを説明可能な「Trio-Experts」モジュールと「SBAG」ゲートを用いた新しいフレームワークを提案するものです。
本論文は、視覚生成エージェントにおける中間エラー修正のための体系的なリフレクション機構の欠如を解決するため、リフレクションと計画の非対称性を踏まえた「リフレクション・プラン共最適化(RPCO)」トレーニング手法を提案し、これにより単一画像および複数画像タスクにおいて既存のベンチマークで Gemini2.5 Pro を凌駕する VisionCreator-R1 を開発したことを報告しています。
この論文は、4 台のカメラからの画像を逆透視写像(IPM)で統合し、YOLOv8 を用いた物体検出と 3D 座標プロットによる空きスペースの可視化を実現する、コスト効果が高く実装容易なコンピュータビジョンベースのスマート駐車割当システムを提案しています。
本論文は、4 種類の癌でバランスよく学習された軽量な深層学習モデル「MuCTaL」を開発し、既知の癌種だけでなく未知の癌種(膵管癌など)に対しても高い汎化性能を示す、実用可能なマルチ癌種腫瘍局在化フレームワークを提案しています。
本論文は、静止画や動画のハイブリッド参照と各要素の軌跡指定を可能にする「HECTOR」という生成パイプラインを提案し、複雑な時空間制約を満たしつつ高品質で参照に忠実な動画生成を実現するものである。
本論文は、CARLA 環境における物理的パッチ攻撃を用いたブラックボックス評価により、Dolphins、OmniDrive、LeapVAD という 3 つの VLM 型自律運転アーキテクチャがすべて深刻な脆弱性を有し、安全性を脅かす多フレームにわたる失敗や物体検出の劣化を引き起こすことを明らかにしています。
本論文では、外部の視覚的クエリに基づいて未編集動画内の対象物をピクセルレベルで全て検出する新たなタスク「視覚的クエリセグメンテーション(VQS)」を提案し、そのための大規模ベンチマーク「VQS-4K」と、SAM 2 を拡張した高性能な手法「VQ-SAM」を併せて紹介しています。