cs.CV 件の論文 | Gist.Science

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Proof-of-Perception（PoP）は、マルチモーダル推論を計算可能なグラフとして表現し、各ステップにコンフォーマル保証による信頼性証明を組み込むことで、計算リソースを効率的に配分しながら誤りや幻覚を抑制し、高い精度と信頼性を両立する新しいツール利用フレームワークを提案しています。

Arya Fayyazi, Haleh Akrami2026-03-03💻 cs

Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors

この論文は、照度、影、色不変性などの物理的事前知識を構造化制御埋め込みモジュール（SCEM）を通じて拡散モデルに統合し、LoLv1 でのみ学習した後に他データセットでも優れた汎化性能と最先端の低照度画像增强を実現する手法を提案しています。

Xuanshuo Fu, Lei Kang, Javier Vazquez-Corral2026-03-03💻 cs

Percept-Aware Surgical Planning for Visual Cortical Prostheses with Vascular Avoidance

この論文は、血管回避や灰白質の制約を考慮しつつ、予測される知覚結果を最適化するために、電極配置を微分可能な前方モデルを用いた制約付き最適化問題として定式化し、視覚皮質インプラントの手術計画を改善するフレームワークを提案しています。

Galen Pogoncheff, Alvin Wang, Jacob Granley + 1 more2026-03-03💻 cs

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

本研究は、U-Net によるセグメンテーションと OOD 検知機能を備えた深層学習フレームワークを提案し、EfficientNet-B0 を用いて包装・未包装肉の鮮度を高精度に分類するとともに、スマートフォン上での実用性を検証したものである。

Hutama Arif Bramantyo, Mukarram Ali Faridi, Rui Chen + 2 more2026-03-03⚡ eess

Unsupervised Semantic Segmentation in Synchrotron Computed Tomography with Self-Correcting Pseudo Labels

本論文は、シンクロトロン CT 画像の大量データに対する手動アノテーションの必要性を排除し、クラスタリングによる疑似ラベルの生成と Unbiased Teacher 手法を用いた自己修正を組み合わせた新たな教師なしセグメンテーション枠組みを提案し、マグネシウム結晶などのサンプルにおいて基線となる疑似ラベルよりも精度を大幅に向上させることを示しています。

Austin Yunker, Peter Kenesei, Hemant Sharma + 3 more2026-03-03💻 cs

DiffSOS: Acoustic Conditional Diffusion Model for Speed-of-Sound Reconstruction in Ultrasound Computed Tomography

本論文は、物理的制約を統合した条件付き拡散モデル「DiffSOS」を提案し、超音波コンピュータ断層撮影（USCT）において、従来の手法が抱える計算コストや解像度の課題を克服し、高忠実度かつ推論速度が速く、さらに信頼性の指標となる不確実性を推定可能な音速再構成を実現したことを述べています。

Yujia Wu, Shuoqi Chen, Shiru Wang + 3 more2026-03-03💻 cs

SSR: Pushing the Limit of Spatial Intelligence with Structured Scene Reasoning

マルチモーダル大規模言語モデルの空間認識能力の限界を克服するため、軽量なアライメント機構と構造化されたシーン推論（SSR）を導入し、大規模な事前学習なしに 3D 幾何特徴を 2D 視覚意味論に統合することで、VSI-Bench などで SOTA 性能を達成する手法を提案する。

Yi Zhang, Youya Xia, Yong Wang + 7 more2026-03-03💻 cs

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

3D 視覚言語モデルにおける 3D-テキスト対データの不足と幾何学的情報の劣化という課題に対し、中間点クラウドトークンと視覚入力トークンの整合性を制約する軽量な特徴レベルの整合正則化手法「PointAlign」を提案し、限られた計算コストで分類やキャプション生成タスクの性能を大幅に向上させることを示した。

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

本論文は、多視点画像から透明物体の幾何学と材質を高精度に分解・再構成するための、CUDA 実装による効率的な微分レンダリングフレームワーク「DiffTrans」を提案し、複雑なトポロジーやテクスチャを持つ実世界の透明物体の再構成において既存手法を上回る性能を示すものである。

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

Station2Radar: query conditioned gaussian splatting for precipitation field

本論文は、気象レーダーの限定的なカバレッジと気象観測所の疎なデータ、そして衛星画像の特性を補完し、自動気象観測所データと衛星画像を融合して降水領域のみを効率的に描画する「クエリ条件付きガウススプラッティング（QCGS）」という新しいフレームワークを提案し、従来のグリッド化された降水製品と比較して RMSE を 50% 以上改善する高精度な降水場生成を実現したことを報告しています。

Doyi Kim, Minseok Seo, Changick Kim2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

本論文は、病変部位のみに編集を限定し意図しない属性変化を防ぐとともに、編集プロセスを可視化するガイダンスマップを提供することで解釈性を向上させた、新しい解釈可能な局所編集モデル「InstructX2X」と、専門家が検証した医療 VQA ペアから構築されたデータセット「MIMIC-EDIT-INSTRUCTION」を提案し、胸部 X 線画像の反事実的生成において最先端の性能を達成したことを示しています。

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

本論文は、LLM を活用して自動生成されたラベル付き医療所見データセットを用い、画像からの所見予測とレポート生成を分離する「Fact-Flow」というフレームワークを提案し、医療報告生成における事実性の安定性と精度を大幅に向上させることを示しています。

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

本論文は、生物基礎モデルの階層的表現を大規模マルチモーダルモデルに統合し、既知および未知の分類にわたって一貫した階層的視覚認識を可能にする「TARA」という手法を提案するものです。

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

本論文は、医療画像解析における多タスク学習の課題を解決するため、タスク固有の事前知識をエンコードする「タスク対応型プロンプト」と、エンコーダの特定上位層にのみ適用する「選択的層微調整（LoRA）」を組み合わせたパラメータ効率的な適応フレームワーク「TAP-SLF」を提案し、超音波画像解析におけるその有効性を示したものである。

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

本論文は、大規模視覚言語モデルの生成過程において、外部信号を必要とせず隠れ状態を直接操作する「層アテンションを用いた内部自己修正（ICLA）」メカニズムを提案し、わずかな追加パラメータで幻觉を効果的に軽減し、視覚的基盤付けを向上させることを示しています。

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

本論文は、産業用 CAD モデルの複雑なパラメトリックシーケンスを扱うために、Mamba 構造に基づく自己教師ありエンコーダ・デコーダフレームワークと GAN を組み合わせた生成モデル「Mamba-CAD」を提案し、新規に作成した大規模データセットを用いた実験でその有効性を示しています。

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

本論文では、視覚言語モデルからの推論による意味的整合性と階層的構造融合による構造的整合性を組み合わせることで、多様で高精度な合成手画像を生成し、3 次元手の再構成性能を向上させる「SesaHand」を提案しています。

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

本論文は、拡散モデルの推論遅延と重さという課題を解決するため、3 次元時空間アテンションを備えた大規模な教師モデルを、時空間のバランスを最適化する双頭敵対的蒸留法を用いて軽量な 2D 基盤モデルへ圧縮し、パラメータを 95% 削減しながら 8 倍の高速化を実現する実世界用動画超解像手法「AdcVSR」を提案するものである。

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

本論文は、局所自己相似性事前知識と連続時間神経力学を統合した「LSS-LTCNet」という説明可能なフレームワークを提案し、足潰瘍の画像セグメンテーションにおいて、境界の精度と計算効率を大幅に向上させると同時に、医療診断における透明性を確保するものである。

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs

ReMoT: Reinforcement Learning with Motion Contrast Triplets

本論文は、VLM の空間的・時間的一貫性の欠如を解決するため、大規模な運動対照データセット「ReMoT-16K」とグループ相対方策最適化（GRPO）を統合した新しい学習パラダイム「ReMoT」を提案し、空間・時間推論タスクで 25.1% の性能向上を達成したことを報告しています。

Cong Wan, Zeyu Guo, Jiangyang Li + 5 more2026-03-03💻 cs

← 前へ次へ →