DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime
DSFlash は、リソース制約のあるエッジデバイスでも実用的なリアルタイム処理(RTX 3090 で 56fps)と低コストな学習環境(古型 GPU で 24 時間未満)を実現しつつ、既存の最先端手法と同等の性能を維持しながら包括的なパンオプティックなシーングラフを生成する低遅延モデルです。
3447 件の論文
DSFlash は、リソース制約のあるエッジデバイスでも実用的なリアルタイム処理(RTX 3090 で 56fps)と低コストな学習環境(古型 GPU で 24 時間未満)を実現しつつ、既存の最先端手法と同等の性能を維持しながら包括的なパンオプティックなシーングラフを生成する低遅延モデルです。
本論文は、深層学習における活性化値の境界外れ値を抑制する新しい非線形量子化手法「BS-KMQ」を提案し、これによりメモリ内計算システムにおける ADC の解像度要件を低減するとともに、既存手法と比較して大幅な量子化誤差の低減、精度向上、およびエネルギー効率と速度の大幅な改善を実現することを示しています。
本論文は、画像と動画の両方に対してスケーラブルな表現を提供する初の階層的逐次 2D ガウススプラッティングフレームワーク「P-GSVC」を提案し、層間互換性を確保する同時学習戦略により、逐次学習と比較して画質を大幅に向上させることを示しています。
本論文は、異ドメイン間のレイテンシ課題を解決し、TLA+ による形式仕様検証で強一貫性を保証するとともに、YCSB ベンチマークにおいてクラシックな Raft と比較して平均レイテンシを約 33%、99 パーセンタイルのテールレイテンシを約 49% 削減する分散合意プロトコル「CD-Raft」を提案したものである。
この論文は、コードプロパティグラフを用いたグラフ畳み込みネットワーク(GCN)モデルを開発し、静的解析レポートの誤検知(False Positive)を高精度に予測することで、開発者の負担軽減とツールへの信頼性向上を実現したことを報告しています。
PET/CT 画像診断レポートの要約生成を目的とした大規模ベンチマーク「PET-F2I-41K」を構築し、臨床的に妥当な評価指標を導入してパラメータ効率型ファインチューニング手法を適用した結果、既存モデルを凌駕する高精度な生成モデル「PET-F2I-7B」を開発したことを報告する論文です。
本論文は、視覚が遮断された環境下での物体把持を可能にするため、事前学習モデルやレンダリングデータに依存せず、触覚センサーから得られる点群と法線ベクトルを用いたグラフ理論に基づく部分 - 全体登録手法「TacLoc」を提案し、YCB データセットおよび実世界物体での有効性を検証したものである。
この論文は、手動設計された幾何学的特徴とニューラルネットワークに基づく意味的特徴を、それぞれを2次元マップに変換するニューラルポイントトランスフォーマーと、信頼性に応じて動的に重み付けする適応型混合専門家モジュールによって統合する「UniStitch」という画期的な画像ステッチングフレームワークを提案し、既存の最先端手法を大幅に凌駕する性能を実現したことを示しています。
この論文は、不確実性下での安全かつ目標指向の意思決定を可能にするため、目標到達、情報収集、安全性をモジュール化し、信念空間における制御リアプノフ関数と制御バリア関数を組み合わせた軽量な階層型制御アーキテクチャを提案し、その有効性をシミュレーションおよび宇宙ロボットプラットフォームで実証したものである。
本論文は、没入型コンピュータグラフィックス(CG)の品質評価における課題を解決するため、6 つの知覚次元に基づく大規模データセットと質問応答ベンチマークを構築し、視覚的に類似した画像の説明を検索して生成に活用する「R4-CGQA」という検索拡張生成フレームワークを提案し、既存の視覚言語モデルの CG 品質評価性能を大幅に向上させることを示しています。
この論文は、既存の手法が抱えるモデル依存性の限界を克服するため、AI 生成画像の帰属を分類問題ではなくインスタンス検索問題として定式化し、低ビット平面に基づく指紋生成と半教師あり学習を組み合わせたモデル非依存のフレームワーク「LIDA」を提案し、ゼロショットおよび少ショット設定において最先端の性能を達成することを示しています。
本論文では、拡散モデルの推論時の最適化コストを排除し、学習コストを最小化しながらリアルタイム制約下で効率的かつ頑健な深度補完を実現する、単一ステップの遅延融合フレームワーク「Marigold-SSD」を提案し、既存手法との効率性ギャップを大幅に縮小するとともに、ゼロショット性能とクロスドメイン汎化能力を実証しています。
この論文は、LLM の意味的事前知識をエンコーダに蒸着させ、話者数を予測して動的にデコード経路を選択する「Talker-Count Routing」を導入することで、LLM をデコーダとして使用せずとも高速かつ高精度なマルチトークア ASR を実現する新しいフレームワークを提案しています。
この論文は、Clough-Tocher 法と多二次関数 RBF 法を用いた多変数表面解析の再現性ある比較を通じて、ノイズのある観測データを単純に棄却するのではなく構造化して補間することで、熱力学プロセスシステムにおいて物理的に意味のある挙動を回復できることを示しています。
この論文は、実像と合成画像の潜在表現における層間の一貫性の違いに着目し、新しい「潜在遷移不一致(LTD)」手法を提案することで、既存の手法よりも優れた汎化性能と検出精度を実現したことを報告しています。
本論文では、リアルタイム推論を可能にする軽量な U-Net 型生成器と、実世界データのパッチを組み合わせたハイブリッド学習戦略を採用し、合成データの写実性向上とセマンティックな整合性を両立させつつ、既存の画像間変換手法を上回る推論速度と画質を実現する「HyPER-GAN」を提案しています。
本論文は、構造レイアウトとクロスフィールドを同時に予測する学習ベースのフレームワーク「TopGen」を提案し、高品質な四角形メッシュ生成において既存の手法を上回る幾何学的忠実度とトポロジーの合理性を実現するとともに、大規模データセット「TopGen-220K」を公開したものである。
この論文は、物理的複製防止機能(PUF)と記号実行を用いて、産業制御ソフトウェアを特定のハードウェアに安全かつ堅牢に保護し、逆解析や安全特性の侵害を防ぐ新しいコピー保護手法を提案するものである。
本論文は、高価な二腕システムに代わる低コストかつコンパクトな単一アームによる布の操作を実現するため、視覚触覚センサと合成データ生成を活用した新しいフレームワーク「Touch G.O.G.」を提案し、実世界での布の展開タスクにおける高い精度と信頼性を示しています。
この論文は、混雑した環境におけるロボットの把持成功率を向上させるため、視覚言語モデルによる高レベルな意思決定と強化学習に基づくゼロショット把持を統合し、必要に応じて周囲の物体を除去する適応的な閉ループ制御フレームワーク「AdaClearGrasp」を提案するものです。