cs.CV 件の論文 | Gist.Science

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

本論文は、拡散確率モデルを用いた自己教師あり学習と時空間情報の統合により、脳卒中患者の CT 画像から脳組織の経過と転帰を高精度に予測する新しい手法を提案し、複数の医療センターから収集された大規模データセットにおいて既存の手法を上回る性能を実証したものである。

Adam Marcus, Paul Bentley, Daniel Rueckert2026-03-03🤖 cs.AI

Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

本論文は、拡散モデルのサンプリング時間スケジュールが品質向上の鍵であることを明らかにし、フレネ・セレーの公式に基づく「一定総回転スケジュール（TORS）」を提案することで、学習不要の高速サンプリングにおいて既存手法を上回る高品質な画像生成を実現しました。

Zhenyu Zhou, Defang Chen, Siwei Lyu + 2 more2026-03-03💻 cs

DUCX: Decomposing Unfairness in Tool-Using Chest X-ray Agents

本論文は、胸部 X 線画像の質問応答に特化ツールを活用する医療エージェントにおける不公平性を、ツール露出、遷移、推論という 3 つの段階的要素に分解して分析し、エンドツーエンドの評価だけでは捉えられない潜在的なバイアスを明らかにする「DUCX」フレームワークを提案しています。

Zikang Xu, Ruinan Jin, Xiaoxiao Li2026-03-03💻 cs

Neural Functional Alignment Space: Brain-Referenced Representation of Artificial Neural Networks

この論文は、人工ニューラルネットワークの層間動的軌跡を脳参照座標系に投影する「ニューラル機能的アライメント空間（NFAS）」を提案し、45 種類の事前学習済みモデルの分析を通じて、脳機能に基づく表現の構造的組織とモダリティ間収束を明らかにしたものである。

Ruiyu Yan, Hanqi Jiang, Yi Pan + 4 more2026-03-03💻 cs

Efficient Conformal Volumetry for Template-Based Segmentation

本論文は、テンプレートベースのセグメンテーションにおける体積不確実性推定を、変位場の特徴に基づいて較正することで、出力空間の手法よりも効率的かつ精度の高い信頼区間を実現する「ConVOLT」という新しい枠組みを提案し、医療画像解析パイプラインにおける登録プロセスの活用可能性を示しています。

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

NERFIFY: A Multi-Agent Framework for Turning NeRF Papers into Code

NERFIFY は、文脈自由文法やグラフ思考、視覚的フィードバックなどの 6 つの革新技術を活用したマルチエージェントフレームワークであり、NeRF 研究論文を数週間から数分へと短縮し、専門家による実装と同等の品質で実行可能な Nerfstudio プラグインへ自動的に変換することを可能にします。

Seemandhar Jain, Keshav Gupta, Kunal Gupta + 1 more2026-03-03💻 cs

COMBAT: Conditional World Models for Behavioral Agent Training

本論文は、完全な行動ラベルを必要とせず部分的なデータから学習する拡散モデル「COMBAT」を提案し、格闘ゲーム『鉄拳 3』においてプレイヤーの行動に反応する高度な敵対エージェントの出現行動を成功裏に実証したものである。

Anmol Agarwal, Pranay Meshram, Sumer Singh + 5 more2026-03-03💻 cs

MME: Mixture of Mesh Experts with Random Walk Transformer Gating

本論文は、メッシュ上のランダムウォークと注意機構を用いたゲート機構と動的損失バランス手法を備えた「メッシュ専門家の混合（MME）」フレームワークを提案し、メッシュ分類・検索・セマンティックセグメンテーションにおいて最先端の性能を達成したことを示しています。

Amir Belder, Ayellet Tal2026-03-03💻 cs

Neural Discrimination-Prompted Transformers for Efficient UHD Image Restoration and Enhancement

本論文は、高解像度と低解像度の特徴間の潜在的な差異を「神経識別事前知識（NDP）」として活用し、これを注意機構やネットワークに統合した「UHDPromer」を提案することで、低照度画像の強調、画像の散乱除去、画像のぼけ除去といった 3 つの UHD 画像復元・強化タスクにおいて、最先端の性能を維持しながら計算効率を最大化することを示しています。

Cong Wang, Jinshan Pan, Liyan Wang + 2 more2026-03-03💻 cs

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

本論文は、PCA による幾何学的構造に基づく並列復元戦略と、Mamba の効率的な符号化および Transformer の詳細な復元能力を融合したハイブリッドアーキテクチャ「PPC-MT」を提案し、点群復元において計算効率と高精度な再構築を両立させることを示しています。

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03🤖 cs.AI

MMTA: Multi Membership Temporal Attention for Fine-Grained Stroke Rehabilitation Assessment

本論文は、リハビリテーションの微細な動作評価において既存のモデルが抱える課題を解決するため、単一フレームが複数の時間的注意ウィンドウに同時に所属する「多メンバーシップ時間的注意（MMTA）」を提案し、単一ステージのアーキテクチャで高精度な境界検出と長距離推論を両立させる手法を提示するものである。

Halil Ismail Helvaci, Justin Huber, Jihye Bae + 1 more2026-03-03💻 cs

Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos

本論文は、X 線冠状動脈造影動画の半教師ありセグメンテーションにおいて、SAM3 を活用した教師 - 学生フレームワーク、モーション認識の一貫性、およびプログレッシブな信頼度正則化を組み合わせる「SMART」という手法を提案し、限られたアノテーションデータでも高精度な血管セグメンテーションを実現するものです。

Yu Luo, Guangyu Wei, Yangfan Li + 2 more2026-03-03💻 cs

Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors

この論文は、MR 物理と深層生成モデルの相乗効果を活用し、タグ付き MRI における解剖学画像の復元、高解像度シン映画の合成、および運動推定という従来は個別に扱われていた課題を、初めて非線形な盲逆問題として統合的に解決する新しいフレームワークを提案しています。

Zhangxing Bian, Shuwen Wei, Samuel W. Remedios + 4 more2026-03-03⚡ eess

VEMamba: Efficient Isotropic Reconstruction of Volume Electron Microscopy with Axial-Lateral Consistent Mamba

本論文は、3D 空間依存性を効率的に再順序化する新しいパラダイムと現実的な劣化シミュレーションを統合した VEMamba を提案し、体積電子顕微鏡画像の等方的再構成において、計算コストを抑えながら高い精度と軸 - 横方向の一貫性を達成することを示しています。

Longmi Gao, Pan Gao2026-03-03💻 cs

pySpatial: Generating 3D Visual Programs for Zero-Shot Spatial Reasoning

本論文は、3D 空間理解が苦手なマルチモーダル大規模言語モデルに対し、Python コード生成を通じて 3D 再構成などの空間ツールを直接操作させるゼロショット視覚プログラミングフレームワーク「pySpatial」を提案し、複雑な空間推論タスクや実世界の室内ナビゲーションにおいて既存の強力なモデルを凌駕する性能を実証したものである。

Zhanpeng Luo, Ce Zhang, Silong Yong + 6 more2026-03-03💻 cs

UD-SfPNet: An Underwater Descattering Shape-from-Polarization Network for 3D Normal Reconstruction

本論文は、水中散乱による画像劣化を低減しつつ偏光情報を活用して 3 次元表面法線を高精度に復元する統合ネットワーク「UD-SfPNet」を提案し、MuS-Polar3D データセットにおける実験で既存手法を上回る精度を達成したことを報告しています。

Puyun Wang, Kaimin Yu, Huayang He + 3 more2026-03-03💻 cs

On the Exact Algorithmic Extraction of Finite Tesselations Through Prime Extraction of Minimal Representative Forms

この論文は、離散的なグリッドにおける正確なテセレーションを特定するために、階層的アルゴリズムを用いて最小代表形式の正規化と素性抽出を行う手法を提案し、記号的グリッド分析の欠落を補完するものである。

Sushish Baral, Paulo Garcia, Warisa Sritriratanarak2026-03-03💻 cs

VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

本論文は、高精度なセンサー較正が不要な「センサー幾何学フリー」の室内 3D 物体検出を実現するため、VGGT の内部で学習されたセマンティックおよび幾何学的な事前知識を、注意機構に基づくクエリ生成と動的な特徴集約によって効果的に活用する新たなフレームワーク「VGGT-Det」を提案し、ScanNet および ARKitScenes において既存の最良手法を大幅に上回る性能を示したものである。

Yang Cao, Feize Wu, Dave Zhenyu Chen + 3 more2026-03-03💻 cs

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

本論文は、LLM ベースの自動運転における数値表現の限界を克服するため、数値を離散トークンではなく専用埋め込みとして表現する「DriveCode」を提案し、軌道予測や制御信号生成の精度向上を実証したものである。

Zhiye Wang, Yanbo Jiang, Rui Zhou + 5 more2026-03-03💻 cs

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

DrawEduMath ベンチマークを用いた大規模評価により、視覚言語モデルは数学問題の解法には優れているものの、学習者の誤りを特定・診断する教育的タスク、特に支援を要する生徒の解答の分析においては著しく性能が低下することが明らかになった。

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

← 前へ次へ →