MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry
本論文は、Transformer ベースのニューラル幾何モデルが抱える GPU メモリ容量の制約を克服し、大規模な画像集合に対する高品質な 3 次元再構成を可能にするために、画像の再順序化と分割、そして効率的な統合を行うトレーニング不要の「MERG3R」というフレームワークを提案するものである。
5561 件の論文
本論文は、Transformer ベースのニューラル幾何モデルが抱える GPU メモリ容量の制約を克服し、大規模な画像集合に対する高品質な 3 次元再構成を可能にするために、画像の再順序化と分割、そして効率的な統合を行うトレーニング不要の「MERG3R」というフレームワークを提案するものである。
本論文は、キャプションベースのクエリで学習された動画モーメント検索モデルが検索クエリに対して性能が低下する原因を「言語的未特定性」と「複数モーメントの存在」に起因する「デコーダクエリの崩壊」として特定し、デコーダクエリの活性化数を増やすアーキテクチャ改良により、検索クエリ、特に複数モーメントを含むクエリに対する性能を大幅に向上させる手法を提案しています。
この論文は、大規模な放射線特徴量プールから患者ごとに補完的な特徴量セットを効率的に抽出する 2 段階の検索戦略を提案し、透明性を維持しつつ深層学習と同等の診断性能を達成する新しい膝 MRI 評価フレームワークを提示しています。
この論文は、外見だけでは判断が難しい宗教や国籍、社会経済的地位などの文化的バイアスを評価するために、画像編集モデルを用いて同一人物を異なる文化的文脈に配置した合成データセット「Cultural Counterfactuals」を構築し、大規模視覚言語モデルにおける文化的バイアスを定量的に測定する手法を提案しています。
この論文は、SMPL 形式に基づく微分可能な体積モデルと、新しい KTPolyRigid 変換を導入することで、胎児 MRI 画像における解剖学的整合性を保ちつつ、折れ曲がりの少ない変形場を実現し、ロバストな登録と効率的な臓器セグメンテーションを可能にする手法を提案しています。
本論文は、C2PA による人間作成の証明と AI 生成を示す透かしが両方とも検証を通過する「整合性衝突」現象を特定し、既存の仕様上の欠陥を利用した偽造の生成を実証するとともに、メタデータと透かし検出を統合的に評価するクロスレイヤー監査プロトコルを提案してこの問題の解決を可能にすることを示しています。
本論文は、地理空間データに特化した PyTorch ライブラリ「TorchGeo」の主要な抽象概念をコード例で解説し、Sentinel-2 画像を用いた地表水域のセマンティックセグメンテーションによるエンドツーエンドの事例研究を通じて、地球観測における機械学習パイプラインの構築を支援するチュートリアルを紹介しています。
OpenMarcie は、ウェアラブルセンサーとカメラを用いたマルチモーダルデータを収集し、製造環境における作業者の行動認識を目的とした、36 名の参加者による 37 時間以上のデータを含む世界最大規模のデータセットであり、活動分類やオープンボキャブラリーキャプションングなどのタスクでベンチマークされています。
本論文は、データセット蒸留をサンプル数の削減だけでなく、固定ビット制約下での精度とコンパクトさの同時最適化として再定義し、合成データと量子化パラメータをエンドツーエンドで共最適化する「QuADD」フレームワークを提案し、画像分類や 3GPP ビーム管理タスクにおいて既存手法を上回るビット効率を実現することを示しています。
既存の都市部中心のデータセットでは対応が困難な長距離感知の課題を解決するため、高速道路での長距離自律運転を実現するために特化したセンサーを搭載し、最大 1,000 メートルの範囲をカバーする大規模なマルチモーダルデータセット「TruckDrive」を提案し、現在の最先端モデルが 150 メートルを超える範囲で性能が大幅に低下することを示しました。
本論文は、知識グラフとグラフ注意ネットワークを活用して電子健康記録からアルツハイマー病の診断に有用な潜在表現を抽出し、高コストな MRI 画像の再構成を回避しながら欠損モダリティを補完する新しいフレームワーク「MIRAGE」を提案し、MRI が欠如したコホートにおける診断精度を大幅に向上させたことを示しています。
本論文は、複雑な推論や多段階ワークフローを要する文書視覚質問応答(DocVQA)の課題を解決するため、論理的なステップへの分解、専門エージェントの協調、議論による検証、および整合性チェックを組み合わせた新しいマルチエージェントフレームワーク「ORCA」を提案し、主要なベンチマークで最先端の性能を達成したことを示しています。
本論文は、一般の森林火災画像で事前学習された深層学習モデルを転移学習により適応させることで、限られたデータでも煙や低強度の炎が特徴的な泥炭地火災を高精度に検出する手法を提案し、その有効性を検証したものである。
本論文は、10 段階の MST スケールで注釈付けされた大規模オープンデータセット「STW」を構築し、深層学習モデル「SkinToneNet」を開発することで、野外環境における皮膚色分類の精度を向上させ、公平性評価の基準を確立する包括的なフレームワークを提案する。
本論文は、非ユークリッド空間における骨格モーションの識別性を高める幾何学的変換層と、射影による歪みを抑制する歪み感知最適化層を導入し、5 つのデータセットで既存手法を上回る性能を達成するエンドツーエンドの幾何学的深層ニューラルネットワーク「E2E-GNet」を提案するものである。
本論文は、自動運転におけるマルチモーダル 3D 物体検出の信頼性向上を目的とし、任意のセンサー欠落状況下でも過去のデータと不確実性に基づく融合戦略を用いて特徴を補完する、アーキテクチャ変更や再学習を不要とするプラグアンドプレイ型モジュール「ModalPatch」を提案するものである。
本論文は、大規模言語モデルの安全性評価がテキスト中心である現状を踏まえ、音声・画像・動画を含むマルチモーダル入力に対するアライメントの一般化を検証するオープンソースの「MUSE」というプラットフォームを提案し、多ターン攻撃やモダリティ切り替え(ITMS)を用いた実験により、単一ターンでは拒絶率が高くても多ターン攻撃で安全性が大幅に低下することや、モダリティの影響がモデルファミリーに依存することを示しています。
この論文は、James の双円錐再パラメータ化に基づいて SPD 行列領域に新たな Finsler 構造と双情報幾何構造を導入し、これらが適切な座標系で測地線を直線に対応させ、ヒルベルト距離の一般化や既存の距離との不等式関係などを通じて機械学習や信号処理などの分野への応用可能性を示すものである。
本論文は、ハダマード変換に代わって画像タスクの誘導バイアスに合致するハール・ウェーブレット変換を採用し、量子回路での実装を可能にすることで、パラメータ削減と高精度を両立するハイブリッド量子古典ニューラルネットワーク「WTHaar-Net」を提案し、IBM の量子ハードウェア上での実証を含む実験でその有効性を示したものである。
この論文は、ビデオデータからの3D 人体再構成を用いてマーカーなしで歩行パラメータを推定し、OpenSim と統合することで従来の姿勢推定法よりも高精度な生体力学的解釈を可能にするフレームワークを提案するものである。