Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise
本論文は、3D 意味的占有予測におけるラベルノイズ問題に対処するため、初のベンチマーク OccNL を構築し、二重ソースの部分的ラベル推論を用いた頑健なフレームワーク DPR-Occ を提案することで、極端なノイズ下でも安全なロボティクス知覚を実現する手法を提示しています。
4149 件の論文
本論文は、3D 意味的占有予測におけるラベルノイズ問題に対処するため、初のベンチマーク OccNL を構築し、二重ソースの部分的ラベル推論を用いた頑健なフレームワーク DPR-Occ を提案することで、極端なノイズ下でも安全なロボティクス知覚を実現する手法を提示しています。
この論文は、クラスレベルの属性とインスタンスレベルの視覚的特徴のギャップ、および意味と視覚の分布の不一致という生成ゼロショット学習の課題を解決するため、属性分布をモデル化し視覚に誘導された意味-視覚アライメントを行う「ADiVA」という手法を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。
本論文は、事前学習済みのフローベースのテキストから動画生成モデルの初期潜在予測から運動表現を直接抽出する「フローガイダンス」を採用し、追加学習なしで効率的かつ柔軟に動画の運動転送を実現する新しいフレームワーク「FlowMotion」を提案しています。
この論文は、2 次元投影間の相関を無視する既存の手法の課題を解決するため、互いに垂直な 2 平面で訓練されたスコアベース拡散モデルを組み合わせることで、歯科用 CBCT 画像のインプラントアーチファクトを効果的に除去する 3 次元インパインティング手法を提案しています。
この論文は、従来の手法では扱いが難しかった自己回帰型ビジョン・ランゲージモデルの意思決定プロセスを、トークンごとの生成過程における注意マップの勾配を計算し、動的なヘッドフィルタリングとシーケンスレベルの集約によって画像領域の重要度を可視化する新しい説明可能性手法「DEX-AR」を提案し、ImageNet、VQAv2、PascalVOC での評価で既存手法を上回る性能を示したことを述べています。
本論文は、事前学習された Stable Diffusion の潜在空間で摂動を最適化し、EOT やガウス平滑化を組み合わせることで、既存の画素空間ベースの敵対的攻撃よりも頑健で転移性の高い「Latent Transfer Attack (LTA)」を提案するものです。
この論文は、可変オートエンコーダによる文脈の統合、ウェーブレット分解を用いた多周波数特徴の抽出、および意味認識型ミキスト・オブ・エキスパートモジュールを組み合わせることで、固定されたテキストプロンプトや空間領域のみに依存する既存手法の限界を克服し、ゼロショット異常検出の性能を向上させる「WMoE-CLIP」という手法を提案し、14 の産業・医療データセットでその有効性を実証したものです。
本論文は、アノテーションや事前学習が不要な点群セマンティックセグメンテーション手法「P-SLCR」を提案し、一貫した構造学習とプロトタイプ間関係に基づく一貫性推論により、S3DIS などのデータセットにおいて既存の教師あり手法 PointNet を上回る性能を達成したことを報告しています。
この論文は、ルーマニアや英国などからの 12 名の現代美術家が参加した調査を通じて、ChatGPT による作品のパロディ生成が色彩やテクスチャの類似性は示しつつも、構図や概念、意図といった本質的な側面において欠如しており、単なる「言い換え」に留まることを明らかにし、AI 生成芸術の評価には単一の指標ではなく多角的なメトリクスを用いた「スタイル転換ダッシュボード」の導入を提唱しています。
この論文は、マルチモーダル結合や非一様な時間的ダイナミクスという世界モデル固有の課題に対処するため、物理学的な曲率指標に基づくトークン予測と適応的スキップ手法を提案し、学習なしで拡散型世界モデルの推論を最大 3.7 倍高速化しつつロールアウト品質を 98% 維持する「WorldCache」を提案するものである。
K-MaT は、臨床テキストにアンカーされたプロンプトと融合グロモフ・ワシュタイン最適輸送を用いて高解像度画像モデルの決定構造を低解像度画像へ転送し、トレーニングデータなしで医療 VLM のクロスモーダル適応と性能向上を実現する手法です。
本論文は、画像の領域ごとの情報量や拡散段階に応じてトークン数を動的に調整する「Dynamic Chunking Diffusion Transformer(DC-DiT)」を提案し、事前学習済みモデルからの効率的なアップサイクルを可能にしながら、計算コストを削減しつつ生成品質を向上させることを実証しています。
本論文は、疎なボクセル潜在空間を介してメッシュの頂点変位場と接続性を直接予測し、等値面抽出やヒューリスティックなメッシングを不要にしながら、複雑な幾何学形状と整ったトポロジーを持つ 3D メッシュを効率的に生成する新しいトポロジー保存型潜在表現「LATO」を提案するものである。
この論文は、画像のみから無脊椎動物の乾燥重量を推定し、生物多様性モニタリングを効率化するため、BIODISCOVER 装置で得られる面積や沈降速度などの新規予測変数を用いた線形モデルと、単一・多視点・メタデータ対応の深層学習アーキテクチャによるアプローチを提案し、個体レベルで 10〜20% の中央値誤差を実現したことを報告しています。
本論文は、パノラマ歯科 X 線画像の分析において、反復的な検査と左右対称性の理解を可能にする強化学習ベースの自律型ビジョン・ランゲージモデル「OralGPT-Plus」を提案し、専門家の診断経路を含むデータセット「DentalProbe」と新しいベンチマーク「MMOral-X」を用いてその有効性を示したものである。
本論文は、2D 画像からの弱教師ありセマンティックセグメンテーションの精度向上を目的として、最新のフィードフォワード 3D 復元技術を用いて 3D 幾何構造を補助教師信号として活用し、スパースな注釈からシーン全体への注釈伝播を可能にする「Rewis3d」というフレームワークを提案し、追加のラベルや推論コストを増やすことなく既存手法を 2〜7% 上回る性能を達成したことを報告しています。
本論文は、スライド画像の階層構造を保存する領域ネスト型選択的走査と、診断パターンの多様性に対応する混合専門家モデルを統合した「MoEMambaMIL」を提案し、9 つのタスクで最先端の性能を達成したことを示しています。
この論文は、DINOv3 を基盤とした深度推定モデルと ALS データを用いてトレーニングされた CHMv2 を紹介し、既存の製品と比較して森林の高さ推定精度を大幅に向上させ、高い森林におけるバイアスを低減し、樹冠の細部をより正確に捉えた全球メータ解像度の林冠高マップを提示するものである。
本論文は、セマンティックに同等なプロンプト間の一貫性を欠くという SAM3 の課題を「プロンプトグループ」概念で再定義し、品質誘導正則化とロジットレベルの整合性制約を導入することで、アーキテクチャ変更なしにテキスト誘導核分割のロバスト性と汎化性能を大幅に向上させるフレームワークを提案しています。
本論文は、リアルタイムシーングラフ生成の精度と速度のバランスを最適化するため、REACT 基盤を拡張し、クロスアテンション機構を活用して推論速度を 20% 向上させながら関係予測精度を 10% 改善した新モデル「REACT++」を提案するものです。