VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion
本論文は、影の生成が抱える非適切性の課題を解決するため、可視性事前知識を活用した二段階の拡散モデル「VSDiffusion」を提案し、DESOBAv2 データセットにおいて既存の手法を上回る最先端の結果を達成したことを報告しています。
3970 件の論文
本論文は、影の生成が抱える非適切性の課題を解決するため、可視性事前知識を活用した二段階の拡散モデル「VSDiffusion」を提案し、DESOBAv2 データセットにおいて既存の手法を上回る最先端の結果を達成したことを報告しています。
本論文は、3D 物体形状とテキスト指示の間のモダリティギャップを克服し、物理的に安定かつ意味的に整合性の高い把持姿勢を生成するために、拡散モデルと細粒度な構造化言語ラベルを活用した新しいフレームワーク「AffordGrasp」を提案し、既存手法を大幅に上回る性能を実証したものである。
本論文は、音楽のビートに基づくガウス表現を導入し、Transformer の代わりに長系列処理に優れた Mamba を拡散モデルに組み込むことで、短尺から長尺まで音楽と同期した高品質なダンス生成を実現する「MambaDance」を提案しています。
この論文は、複雑な人間動作の動画生成における課題を解決するため、自然言語から骨格シーケンスを生成する自己回帰モデルと、その骨格を基に高品質な動画を合成するポーズ条件付き拡散モデルからなる二段階のフレームワークを提案し、さらに複雑な動作に特化した合成データセットを構築したことを報告しています。
本論文は、偽ラベルの品質を条件付教師信号として活用し、低品質なアーティファクトの模倣を防ぎつつ高品質な復元を可能にする「QualiTeacher」という新しいフレームワークを提案し、実世界画像復元における不完全な教師あり学習のパラダイムを革新するものである。
本論文は、部分的な遮蔽や欠損モダリティ、クラス不均衡といった実環境の課題に対処するため、安全なクロスアテンション機構とモダリティドロップアウトを備えた双枝トランスフォーマーアーキテクチャを採用し、Aff-Wild2 検証セットで 60.79% の精度と 0.5029 の F1 スコアを達成した、10 回 ABAW 表情認識チャレンジに対する強健なマルチモーダルフレームワークを提案しています。
従来の密なアテンションに依存する 3D 再構築モデルが抱える計算コストの課題を解決するため、Structure-from-Motion の原理に着想を得て、最も情報量の多い画像トークンのみを選択的に処理する双枝アテンション機構を採用することで、1000 視点シーケンスにおいて 12.4 倍の推論速度向上を実現しつつ、幾何学的精度とのバランスを保った Speed3R を提案する論文です。
本論文は、ロボットの技能プログラミングにおいて、高次元の視覚情報に基づいて条件分岐を自動選択し、分布外コンテキストを検出する「See & Switch」というインタラクティブな教示・実行フレームワークを提案し、実ロボット実験およびユーザー研究を通じてその有効性を検証したものである。
本論文は、強化学習を用いて複数の専門エージェント間の協調を最適化し、複雑な指示にも柔軟に対応する次世代の画像編集フレームワーク「ImageEdit-R1」を提案し、既存の単一モデルや多エージェント手法を上回る性能を実証したものである。
本論文は、大規模視覚言語モデル(LVLM)を活用してドローン画像と衛星画像の視覚的・意味的相関を明示的に学習する新規ランキングアーキテクチャと、近接する正例への過度な罰則を回避する関係性認識損失関数を提案し、既存の手法を大幅に上回るクロスビュー UAV 地理定位の精度向上を実現するものである。
この論文は、連続的な特徴量に依存する従来の評価指標の限界を克服するため、離散的な視覚トークン空間における分布距離や品質スコアを提案し、大規模ベンチマーク「VisForm」を用いて人間の評価との高い相関を実証するものです。
この論文は、マルチモーダル大規模言語モデルを用いて欠陥画像を合成し、限られた実データのみで電力線絶縁体の欠陥検出精度を大幅に向上させるデータ効率の高い手法を提案しています。
本論文は、既存のハッシュベース手法が抱える情報損失やカテゴリ爆発の問題を克服するため、セマンティックなプロトタイプ更新と安定したテスト時エンコーダ更新、およびマージン意識型ログit較正を導入し、オンラインストリームから未知のカテゴリを動的に発見・学習する適応フレームワーク「TALON」を提案するものです。
この論文は、未知環境でのオブジェクト目標ナビゲーションにおいて、LLM を用いた意味領域推論とハイブリッド地図を統合し、能動的な探索戦略を採用することで、従来の反応型アプローチやフロンティア探索よりも大幅に高い成功率と経路効率を達成する手法を提案しています。
本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標(SICS)、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。
TrianguLang は、推論時にカメラ較正や最適化を不要とし、幾何学的整合性を意識した注意機構(GASA)を導入することで、単一のテキストクエリのみで高精度かつリアルタイムな 3 次元物体・部分の位置特定を実現する新しいフードフォワードフレームワークです。
本論文は、ラベルフリーの情報エントロピー基準を用いたニューロン重要度評価とバイナリ探索に基づく適応的剪定を提案し、CLIP や DINOv2 などの大規模ビジョントランスフォーマーからパラメータ数と FLOPs を約 40% 削減しながら性能をほぼ維持する「適応的 MLP 剪定(AMP)」手法を提示しています。
この論文は、自律運転における既存のトークンレベルの混合専門家(MoE)メカニズムの限界を克服し、鳥瞰図(BEV)特徴に基づいてエキスパートを選択する「シーン適応型混合専門家(SAMoE-VLA)」を提案することで、パラメータ数を抑えながら最先端の性能を実現する Vision-Language-Action モデルを提示しています。
本論文は、マスクされたオーディオ・ビジュアル整合性学習と動的条件付きフローを組み合わせることで、動画のセマンティクスとリズムの両方に高度に同期した高品質な音声を生成する「FoleyFlow」を提案し、既存手法を上回る性能を実証したものです。
本論文は、事前学習モデルの制約に依存せず、トレーニング不要の視覚・幾何学的推論を用いて任意の 3D 環境における任意の物体を特定する新しいゼロショット手法「UniGround」を提案し、複数のベンチマークおよび実世界環境において最先端の性能を示すことを報告しています。