cs.CV 件の論文 | Gist.Science

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

NERFIFY は、文脈自由文法やグラフ思考、視覚的フィードバックなどの 6 つの革新技術を活用したマルチエージェントフレームワークであり、NeRF 研究論文を数週間から数分へと短縮し、専門家による実装と同等の品質で実行可能な Nerfstudio プラグインへ自動的に変換することを可能にします。

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

COMBAT: Conditional World Models for Behavioral Agent Training

本論文は、完全な行動ラベルを必要とせず部分的なデータから学習する拡散モデル「COMBAT」を提案し、格闘ゲーム『鉄拳 3』においてプレイヤーの行動に反応する高度な敵対エージェントの出現行動を成功裏に実証したものである。

Anmol Agarwal, Pranay Meshram, Sumer Singh + 5 more2026-03-03💻 cs

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

本論文は、メッシュ上のランダムウォークと注意機構を用いたゲート機構と動的損失バランス手法を備えた「メッシュ専門家の混合（MME）」フレームワークを提案し、メッシュ分類・検索・セマンティックセグメンテーションにおいて最先端の性能を達成したことを示しています。

Amir Belder, Ayellet Tal2026-03-03💻 cs

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

本論文は、高解像度と低解像度の特徴間の潜在的な差異を「神経識別事前知識（NDP）」として活用し、これを注意機構やネットワークに統合した「UHDPromer」を提案することで、低照度画像の強調、画像の散乱除去、画像のぼけ除去といった 3 つの UHD 画像復元・強化タスクにおいて、最先端の性能を維持しながら計算効率を最大化することを示しています。

Cong Wang, Jinshan Pan, Liyan Wang + 2 more2026-03-03💻 cs

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

本論文は、PCA による幾何学的構造に基づく並列復元戦略と、Mamba の効率的な符号化および Transformer の詳細な復元能力を融合したハイブリッドアーキテクチャ「PPC-MT」を提案し、点群復元において計算効率と高精度な再構築を両立させることを示しています。

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03🤖 cs.AI

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

本論文は、リハビリテーションの微細な動作評価において既存のモデルが抱える課題を解決するため、単一フレームが複数の時間的注意ウィンドウに同時に所属する「多メンバーシップ時間的注意（MMTA）」を提案し、単一ステージのアーキテクチャで高精度な境界検出と長距離推論を両立させる手法を提示するものである。

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

本論文は、X 線冠状動脈造影動画の半教師ありセグメンテーションにおいて、SAM3 を活用した教師 - 学生フレームワーク、モーション認識の一貫性、およびプログレッシブな信頼度正則化を組み合わせる「SMART」という手法を提案し、限られたアノテーションデータでも高精度な血管セグメンテーションを実現するものです。

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

この論文は、MR 物理と深層生成モデルの相乗効果を活用し、タグ付き MRI における解剖学画像の復元、高解像度シン映画の合成、および運動推定という従来は個別に扱われていた課題を、初めて非線形な盲逆問題として統合的に解決する新しいフレームワークを提案しています。

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

本論文は、3D 空間依存性を効率的に再順序化する新しいパラダイムと現実的な劣化シミュレーションを統合した VEMamba を提案し、体積電子顕微鏡画像の等方的再構成において、計算コストを抑えながら高い精度と軸 - 横方向の一貫性を達成することを示しています。

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

本論文は、3D 空間理解が苦手なマルチモーダル大規模言語モデルに対し、Python コード生成を通じて 3D 再構成などの空間ツールを直接操作させるゼロショット視覚プログラミングフレームワーク「pySpatial」を提案し、複雑な空間推論タスクや実世界の室内ナビゲーションにおいて既存の強力なモデルを凌駕する性能を実証したものである。

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

本論文は、水中散乱による画像劣化を低減しつつ偏光情報を活用して 3 次元表面法線を高精度に復元する統合ネットワーク「UD-SfPNet」を提案し、MuS-Polar3D データセットにおける実験で既存手法を上回る精度を達成したことを報告しています。

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

この論文は、離散的なグリッドにおける正確なテセレーションを特定するために、階層的アルゴリズムを用いて最小代表形式の正規化と素性抽出を行う手法を提案し、記号的グリッド分析の欠落を補完するものである。

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

本論文は、高精度なセンサー較正が不要な「センサー幾何学フリー」の室内 3D 物体検出を実現するため、VGGT の内部で学習されたセマンティックおよび幾何学的な事前知識を、注意機構に基づくクエリ生成と動的な特徴集約によって効果的に活用する新たなフレームワーク「VGGT-Det」を提案し、ScanNet および ARKitScenes において既存の最良手法を大幅に上回る性能を示したものである。

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

本論文は、LLM ベースの自動運転における数値表現の限界を克服するため、数値を離散トークンではなく専用埋め込みとして表現する「DriveCode」を提案し、軌道予測や制御信号生成の精度向上を実証したものである。

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

DrawEduMath ベンチマークを用いた大規模評価により、視覚言語モデルは数学問題の解法には優れているものの、学習者の誤りを特定・診断する教育的タスク、特に支援を要する生徒の解答の分析においては著しく性能が低下することが明らかになった。

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

本論文は、HDR UGC 動画の品質評価を目的とした大規模主観的データセット「Beyond8Bits」と、HDR 感知型ビジョンエンコーダと強化学習に基づく最適化フレームワーク「HAPO」を採用した初のマルチモーダル大規模言語モデル「HDR-Q」を提案し、既存の SDR 向けモデルを超えた最先端の性能を達成したことを報告するものである。

Shreshth Saini, Bowen Chen, Neil Birkbeck + 3 more2026-03-03🤖 cs.AI

StegoNGP: 3D Cryptographic Steganography using Instant-NGP

本論文は、Instant-NGP のハッシュ符号化関数を鍵制御型のシーン切り替え機構として活用し、外部デコーダやアーキテクチャ変更を必要とせずに、単一のモデルに隠し 3D 場面を完全に埋め込み、高い容量と不可視性を実現するパラメータフリーの 3D 暗号ステガノグラフィ手法「StegoNGP」を提案するものである。

Wenxiang Jiang, Yujun Lan, Shuo Zhao + 3 more2026-03-03💻 cs

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

本論文は、Contrastive Forward-Forward 学習における正のペアマージンのクリッピング実装が、CIFAR-10 などの特定のデータセットにおいてバッチ内の正ペア密度やタスクの難易度に依存して学習のばらつきを著しく増大させることを実証し、勾配中立な代替手法による解決策を提案しています。

Joshua Steier2026-03-03🤖 cs.LG

Decoupling Motion and Geometry in 4D Gaussian Splatting

本論文は、ガウシアンの運動と幾何学的属性を分離し、時間変化する速度を明示的に取り入れたガリレイせん断行列と幾何学的変形ネットワークを導入することで、複雑な非線形運動を高精度にモデル化する新しい 4D ガウシアンスプラッティング手法「VeGaS」を提案し、公開データセットにおいて最先端の性能を達成したことを示しています。

Yi Zhang, Yulei Kang, Jian-Fang Hu2026-03-03💻 cs

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

本論文は、フローマッチングに基づく次世代拡散モデル（画像・動画）における概念消去と生成品質の両立を課題とし、制約付き多目的最適化と効率的な勾配手術、そして時空間一貫性を確保するアノカー＆プロパゲート機構を統合した「EraseAnything++」を提案し、既存手法を凌駕する性能を達成したことを報告するものである。

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

← 前へ次へ →