cs.CV 件の論文 | Gist.Science

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

本論文は、手術中の文脈に応じた特定の器具インスタンスを言語指示に基づいて特定する新たなベンチマーク「GroundedSurg」を提案し、既存の分類ベースの評価では捉えきれない臨床現場での視覚言語推論の必要性と課題を明らかにしたものである。

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

本論文は、医療画像セグメンテーションにおいて事前学習済みビジョンモデルを完全微調整せずに活用するため、DINOv3 の特徴を軽量なトークンプロトタイプ集約メカニズムで空間的ガイドマスクに変換し、既存のセグメンテーションアーキテクチャに事前知識を注入する「GuiDINO」というフレームワークを提案するものである。

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

本論文は、医療用視覚言語モデルの事実的幻覚を軽減し、局所的な病理学的証拠に基づいた推論を強化するため、視覚領域に根ざした推論プロセスを構築する自動データ生成パイプラインとスコアベースの最適化戦略を備えた「ClinCoT」という臨床意識型視覚連鎖推論フレームワークを提案し、複数の医療ベンチマークで既存手法を上回る性能を実証しています。

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

本論文は、複雑な構成的視覚関係（CVR）タスクを解決するため、正常な事例間の類似性を最大化し異常との差異を最小化する拡張異常コントラスト学習と、予測・検証のパラダイムを組み合わせた「PR-A²CL」を提案し、複数のデータセットで最先端の性能を達成したことを示しています。

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

この論文は、Vision Transformer 枠組み内で環境バイアス調整、直交性制約による内容とノイズの厳密な分離、そして Google の Nano Banana Pro を用いた因果的プリアの導入を通じて、画像ノイズ除去における因果的干渉と正交な内容・ノイズの解離を実現し、高い忠実度とリアルタイム処理性能を達成する「TCD-Net」を提案するものである。

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

本論文は、大規模な可動性データセットで学習された 3D 多モーダル大規模言語モデル「ArtLLM」を提案し、3D メッシュから可動アセットの部品配置と関節構造を推論して高品質な幾何形状を生成する新たなフレームワークを確立し、既存手法の限界を克服してロボティクスやシミュレーション向けにスケーラブルなデジタルツイン構築を実現することを示しています。

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

本論文は、ギガピクセル病理画像の計算的ボトルネックを解決するため、スパースなルーティングと重み付き集約を用いて診断的に重要な情報を保持しつつトークン数を大幅に削減する学習可能な「TC-SSA」フレームワークを提案し、SlideBench や TCGA などのベンチマークでサンプリングベースの手法を上回る性能を達成したことを示しています。

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

本研究は、超音波画像における針の視認性の低さや連続的な挿入中の追跡課題を解決するため、時間的依存関係をモデル化し新たな損失関数を導入したリアルタイム針検出フレームワーク「ConVibNet」を提案し、既存手法よりも高い精度で針の先端位置と角度を推定できることを実証したものである。

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

本論文は、ガウススプラット表現を用いた微分可能な実世界からシミュレーション、そして再び実世界へのエンジン「D-REX」を提案し、実世界の視覚観測とロボット制御信号から物体の質量を同定して高精度なデジタルツインを構築するとともに、限られたデータから力覚を考慮した把持ポリシーを学習することで、シミュレーションと実世界のギャップを効果的に埋めることを示しています。

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

本論文は、高解像度リモートセンシング画像における変化検出の課題を解決するため、適応的特徴関連性・洗練（AFRAR）モジュールやゲーティング機構、差分アテンションを導入し、既存の最先端モデルを凌ぐ精度を少ないパラメータ数で達成する新しいフレームワーク「GRAD-Former」を提案するものである。

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

本論文は、人間の美的嗜好に合わせた顔のレタッチを実現するため、微細な好みを評価できる報酬モデルと、確率的な探索と高忠実度を両立させる動的経路誘導（DPG）を導入した強化学習フレームワーク「BeautyGRPO」を提案し、既存手法を上回る画質と美的整合性を達成したことを報告するものです。

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

本論文は、編集領域に応じた注入強度を動的に制御する「編集意識注入（REE）」手法を提案し、これを Rectified Flow モデルに組み込むことで、微調整なしに高品質なゼロショット画像駆動型動画編集を実現する「FREE-Edit」フレームワークを構築したものである。

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

本論文は、動画要約におけるモダリティの動的な重要性をフレームレベルで適応的に統合する「TripleSumm」アーキテクチャと、3 つのモダリティを備えた大規模ベンチマーク「MoSu」を提案し、既存手法を大幅に上回る性能を達成したことを示しています。

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

本論文は、高次元スペクトルデータとラベル不足という課題に対処するため、線形時間の効率性と関係性モデルを統合したハイブリッド Mamba-Transformer 構造と視覚・テキスト双方向プロンプトを導入し、少量の学習データで hyperspectral 画像分類において最先端の精度を達成する VP-Hype 枠組みを提案しています。

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

本論文は、部分的な 2D 観測から可視領域の復元と不可視領域の生成を統合的に実行し、リアルタイムで高品質な完全 3D 表現を出力する新しい Transformer モデル「RnG」を提案するものである。

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

本論文は、マルチモーダル指令微調整の効率と堅牢性を向上させるため、視覚情報の必要性を定量化して高品質なデータサブセットを選択するフレームワーク「VisNec」を提案し、LLaVA-665K の 15% のデータでフルデータ並みの性能、Vision-Flan-186K ではそれを上回る性能を達成することを示しています。

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

本論文は、LLM 支援によるカテゴリー間・カテゴリー内アライメントと二重ブランチ構造を用いて入力座標系から物体の機能的役割を捉える正準空間表現を学習し、オープンワールドにおける 3D セマンティックな部分セグメンテーションの精度と転移性を大幅に向上させる「CoSMo3D」を提案しています。

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

本論文は、手首に取り付けられたカメラからの単眼画像と自然言語入力を基に、事前学習済みビジョン・言語モデル（VLM）を QLoRA により微調整し、人間とロボットの対話に適した 3 次元物体位置推定を実現する手法を提案し、その有効性を示したものである。

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

この論文は、既存の視覚言語モデルが安全ポリシーの変化に追従できない課題を解決するため、多様なポリシー下での一般化性能を評価する新しいベンチマーク「SafeEditBench」を提案し、検証可能な報酬を用いた強化学習手法「SafeGuard-VL」を開発して、動的に変化する安全ポリシーに適応する画像ガードレールの実現を目指したものです。

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

本論文は、大規模視覚言語モデルにおける視覚トークン剪定手法の分析を通じて、アテンションと多様性の特性を解明し、画像の複雑さに応じて適応的に調整する「AgilePruner」を提案することで、性能と幻覚抑制の両立を実現したものです。

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

← 前へ次へ →