cs.CV 件の論文 | Gist.Science

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

本論文は、LLM を活用して自動生成されたラベル付き医療所見データセットを用い、画像からの所見予測とレポート生成を分離する「Fact-Flow」というフレームワークを提案し、医療報告生成における事実性の安定性と精度を大幅に向上させることを示しています。

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

本論文は、生物基礎モデルの階層的表現を大規模マルチモーダルモデルに統合し、既知および未知の分類にわたって一貫した階層的視覚認識を可能にする「TARA」という手法を提案するものです。

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

本論文は、医療画像解析における多タスク学習の課題を解決するため、タスク固有の事前知識をエンコードする「タスク対応型プロンプト」と、エンコーダの特定上位層にのみ適用する「選択的層微調整（LoRA）」を組み合わせたパラメータ効率的な適応フレームワーク「TAP-SLF」を提案し、超音波画像解析におけるその有効性を示したものである。

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

本論文は、大規模視覚言語モデルの生成過程において、外部信号を必要とせず隠れ状態を直接操作する「層アテンションを用いた内部自己修正（ICLA）」メカニズムを提案し、わずかな追加パラメータで幻觉を効果的に軽減し、視覚的基盤付けを向上させることを示しています。

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

本論文は、産業用 CAD モデルの複雑なパラメトリックシーケンスを扱うために、Mamba 構造に基づく自己教師ありエンコーダ・デコーダフレームワークと GAN を組み合わせた生成モデル「Mamba-CAD」を提案し、新規に作成した大規模データセットを用いた実験でその有効性を示しています。

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

本論文では、視覚言語モデルからの推論による意味的整合性と階層的構造融合による構造的整合性を組み合わせることで、多様で高精度な合成手画像を生成し、3 次元手の再構成性能を向上させる「SesaHand」を提案しています。

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

本論文は、拡散モデルの推論遅延と重さという課題を解決するため、3 次元時空間アテンションを備えた大規模な教師モデルを、時空間のバランスを最適化する双頭敵対的蒸留法を用いて軽量な 2D 基盤モデルへ圧縮し、パラメータを 95% 削減しながら 8 倍の高速化を実現する実世界用動画超解像手法「AdcVSR」を提案するものである。

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

本論文は、局所自己相似性事前知識と連続時間神経力学を統合した「LSS-LTCNet」という説明可能なフレームワークを提案し、足潰瘍の画像セグメンテーションにおいて、境界の精度と計算効率を大幅に向上させると同時に、医療診断における透明性を確保するものである。

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs

ReMoT: Reinforcement Learning with Motion Contrast Triplets

本論文は、VLM の空間的・時間的一貫性の欠如を解決するため、大規模な運動対照データセット「ReMoT-16K」とグループ相対方策最適化（GRPO）を統合した新しい学習パラダイム「ReMoT」を提案し、空間・時間推論タスクで 25.1% の性能向上を達成したことを報告しています。

Cong Wan, Zeyu Guo, Jiangyang Li + 5 more2026-03-03💻 cs

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

本論文は、歯科用パノラマ X 線画像（OPG）の解釈において、階層的証拠収集、専門ツール群、および合意形成メカニズムを統合した監査可能なエージェント「OPGAgent」と、その評価基準となる「OPG-Bench」を提案し、既存の視覚言語モデルや医療エージェントフレームワークを上回る性能を実証したものである。

Zhaolin Yu, Litao Yang, Ben Babicka + 7 more2026-03-03🤖 cs.AI

DreamWorld: Unified World Modeling in Video Generation

既存の動画生成モデルが抱える世界理解の欠如を解消するため、物理常識や時空間的一貫性などの多様な世界知識を統合的に学習する「DreamWorld」フレームワークを提案し、訓練中の安定性を高める「一貫性制約アニール」と推論時の「多ソース内側ガイダンス」を導入することで、Wan2.1 を上回る世界の一貫性を達成した。

Boming Tan, Xiangdong Zhang, Ning Liao + 5 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

本論文は、非対称なイベントカメラと空間可変露光（SVE）センサーをハードウェアとアルゴリズムの両面から統合し、非共軸幾何学や異種光学系を克服する2段階のクロスモーダル整合フレームワークと再構成ネットワークを開発することで、極端な照明環境下での高ダイナミックレンジ（HDR）画像の輝点回復、エッジ忠実度、および頑健性を大幅に向上させるシステムを提案しています。

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

本論文は、データ不足環境における検証セットの過信を解消する新しい評価プロトコル「HPE」を採用した包括的なベンチマーク「FEWTRANS」を提案し、複雑な転移学習手法よりも単純な全パラメータ微調整が優位であることを実証するとともに、その成功メカニズムを解明した。

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

本論文は、セグメンテーション事前学習済みエンコーダの活用と多層ビジュアル注入を特徴とする階層的ビジョン・ランゲージモデル「U-VLM」を提案し、大規模な事前学習言語モデルに依存せずとも、3D 医療画像からの放射線報告生成において最先端の性能を達成することを示しています。

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

本論文は、機械学習を用いた米国選挙システムにおいて、デジタル空間と物理空間（印刷・スキャン）で有効な敵対的サンプル攻撃の種類が異なることを実証し、選挙結果を転覆させるために必要な敵対的投票用紙の数を確率的に評価する枠組みを提示しています。

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

本論文は、高解像度と低解像度の画像を処理するデュアル視覚トークナイザー、バイラテラル注意ネットワーク、そして KAN ベースのモダリティプロジェクターを導入することで、視覚言語モデルのトークン粒度やアライメントの課題を解決し、マルチモーダルかつマルチタスクなトークン通信システムの性能を飛躍的に向上させた「TaiChi」という新フレームワークを提案しています。

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

RAISE は、複雑なプロンプトに対する画像生成の整合性を高めるため、プロンプトの書き換えやノイズ再サンプリングなどの多様なリファインメント行動を用いて推論時に候補を進化させ、要件の達成状況に応じて計算リソースを動的に配分するトレーニング不要の適応的フレームワークを提案するものである。

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

本論文は、Vision Transformer におけるトークングループ化戦略について、複雑に設計された手法ではなく、単なるランダムなグループ化の方が位置情報や多様性などの条件を満たす限り、より高性能かつ汎用的であることを示し、その有効性を視覚、点群、視覚言語モデルなど多様なタスクで実証しています。

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

本論文は、既存の観測と整合性を保ちつつ未観測領域を拡張する双方向生成モデルを、一貫性のある数百フレームを単一パスで生成する自己回帰モデルに蒸留する二段階パイプライン「ArtiFixer」を提案し、3D 再構築の品質とスケーラビリティを大幅に向上させることを示しています。

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

本論文は、オクルージョンや視点変化、外れ値に頑健な 6 自由度姿勢推定を実現するため、点ごとの信頼度をオプティマルトランスポートの周辺分布として注入し、視覚基盤モデルのセマンティック事前知識を活用して教師なし学習を可能にする「COG（信頼度感知型最適幾何対応）」を提案するものである。

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

← 前へ次へ →