Towards Instance Segmentation with Polygon Detection Transformers
高解像度入力と軽量なリアルタイム推論の両立という課題に対し、本論文はインスタンスセグメンテーションを極座標表現による疎な頂点回帰として再定式化する「Poly-DETR」を提案し、高密度なピクセル単位のマスク予測への依存を排除することで、MS COCO などのデータセットにおいて既存手法を上回る精度と大幅なメモリ削減を実現しています。
3462 件の論文
高解像度入力と軽量なリアルタイム推論の両立という課題に対し、本論文はインスタンスセグメンテーションを極座標表現による疎な頂点回帰として再定式化する「Poly-DETR」を提案し、高密度なピクセル単位のマスク予測への依存を排除することで、MS COCO などのデータセットにおいて既存手法を上回る精度と大幅なメモリ削減を実現しています。
この論文は、Return-Oriented Programming に倣って複数の無害な視覚要素を連鎖させる「Reasoning-Oriented Programming」という新たな攻撃パラダイムを提案し、大規模視覚言語モデルの安全性アライメントを回避する自動化フレームワーク「\tool{}」を開発したことを報告しています。
この論文は、人間の記憶における「親しみ(Familiarity)」と「想起(Recollection)」の二重プロセスを模倣し、親しみ度の不確実性に基づいて適応的に検索経路を切り替える新たなメカニズム「RF-Mem」を提案することで、大規模言語モデルのパーソナライズにおける記憶検索の精度とスケーラビリティを向上させることを目指しています。
本論文は、連合自動運転車(CAV)のプラトーン化を「プラトーン・アズ・ア・サービス(PlaaS)」として提供し、プラトーンサービス提供者と利用者をリーダーとフォロワーとするスタッケルベルクゲームとして定式化することで、政府補助金や速度条件などの要因を分析し、持続可能な交通システムにおける最適な価格設定と環境負荷低減の枠組みを提案しています。
この論文は、画像やテキストなど異種の特徴を持つマルチモーダルグラフにおいて、静的な構造や密なアテンションに依存する既存手法の限界を克服し、モダリティ固有の擬似ノードと動的な情報経路を活用することで、適応的かつ効率的なグラフ表現学習を実現する「DiP」と呼ばれる新しいフレームワークを提案し、複数のベンチマークで優れた性能を示したことを述べています。
本論文は、ウェブ動画から大規模な視覚言語ナビゲーション学習フレームワークを構築し、3D 復元を不要とする隐幾何表現を導入することで、実世界環境でのナビゲーション性能と汎用性を大幅に向上させたことを報告しています。
本論文は、VR 会議におけるエンドツーエンド遅延が、ユーザーの相互作用の流暢さ(知覚的側面)と社会的臨場感(認知的側面)に与える影響を、従来のビデオ会議と比較した主観実験を通じて分析し、その関係を解明することで没入型仮想環境のシステム最適化に貢献する知見を提供するものである。
この論文は、ユークリッド平面上のオンライン重み付き非交差マッチング問題について、決定論的アルゴリズムの限界、重み制限下およびランダム化アルゴリズムによる定数競争比の達成可能性、取り消しや共線点などのバリエーション、および最適解を得るためのアドバイス複雑性の改善された限界を研究したものである。
この論文は、自由エネルギー原理に基づきタスク固有の「知覚的相互作用流暢さ(PIF)」の閾値(JND)を分類し、ネットワーク遅延や停止の影響を評価するタスク対応型モデル「TPIFM」を提案するものです。
本論文は、産業分野におけるテキストから 3D 生成の課題であるドメイン適応と幾何学的推論の欠如を解決するため、カテゴリ間干渉を排除するマルチエキスパート LoRA 集合体と、高次構造依存関係を捉えるクロスビューハイパーグラフ幾何強化を導入した「ForgeDreamer」という新たなフレームワークを提案しています。
本論文は、複数の参加者が混合現実(MR)環境で触れ合うことで、菌根菌ネットワークの相互依存関係を身体的に体験し、加速する個人主義への批判的視点から「菌類の認識論」に基づく新たな倫理的・美的体験を提示する「FungiSync」という共同 MR 作品を紹介するものである。
この論文は、ガウシアンリストの短縮とエントロピー制約を導入することで、3D ガウシアンスプラッティングの学習効率を大幅に向上させつつ、レンダリング品質を維持する新たな手法を提案しています。
この論文は、影、急激な動き、マスクの欠陥といった現実世界の不完美な条件下でも、MUSE、DA-Seg、カリキュラム学習に基づく 2 段階トレーニングという 3 つの主要な設計により、時間的安定性と視覚的一貫性を維持しながら物体を安定して除去する新しいフレームワーク「SVOR」を提案し、動画物体除去を理想的な環境から実世界応用へと進展させるものです。
この論文は、古典的な凸性の定義に基づく自己教師ありの幾何学的目的関数を用いて連続的な特徴場を学習し、物理シミュレーションの衝突検出などに応用可能な高品質な凸分解を、メッシュやCAD モデル、ガウシアンスプラットなど多様な 3D 表現に対して汎用的に実行できる最初のフィードフォワードモデルを提案するものである。
CogBlender は、認知空間と意味多様体のマッピングとフローマッチング手法の再定式化により、画像生成プロセスにおいて価性や覚醒度などの認知属性を連続的かつ多角的に制御し、意図した心理的効果を持つ画像を生成する新しいフレームワークを提案するものです。
本論文は、マルチモーダル物体追跡において既存手法の課題である均一な融合と時系列情報の混在を解決するため、モダリティ固有の融合と時系列情報の分離伝達を実現する新しいフレームワーク「MDTrack」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。
本論文は、大規模言語モデルエージェントがオープンソースのコードリポジトリを自動的に標準化された実行可能ツールに変換し、人間の介入を最小限に抑えて安全にタスクを完了させるための統合フレームワーク「ToolRosetta」を提案するものである。
本論文は、タスクの進捗を可視的なマイルストーンとして監視し、失敗時に状態を巻き戻す「See, Plan, Rewind (SPR)」という新しいビジョン・言語・アクションフレームワークを提案し、追加学習なしでロボットの操作タスクにおける堅牢性と未知環境への適応能力を大幅に向上させることを示しています。
この論文は、ネットワーク遅延がネットワーク型 VR ホワイトボードのユーザ体験(QoE)に与える影響を、実用的・快楽的側面、協力モード、およびアバターの有無といった多角的な視点から体系的に評価し、システム最適化のための指針を提供するものです。
CORAL は、単一の事前学習済み VLA バックボーンにタスク固有の軽量 LoRA 専門家を動的に接続・切り替えることで、マルチタスク学習における干渉と忘却を回避し、実世界およびシミュレーション環境でスケーラブルなロボット学習を実現するフレームワークです。