cs.CV 件の論文 | Gist.Science

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

本論文は、動画要約におけるモダリティの動的な重要性をフレームレベルで適応的に統合する「TripleSumm」アーキテクチャと、3 つのモダリティを備えた大規模ベンチマーク「MoSu」を提案し、既存手法を大幅に上回る性能を達成したことを示しています。

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

本論文は、高次元スペクトルデータとラベル不足という課題に対処するため、線形時間の効率性と関係性モデルを統合したハイブリッド Mamba-Transformer 構造と視覚・テキスト双方向プロンプトを導入し、少量の学習データで hyperspectral 画像分類において最先端の精度を達成する VP-Hype 枠組みを提案しています。

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

本論文は、部分的な 2D 観測から可視領域の復元と不可視領域の生成を統合的に実行し、リアルタイムで高品質な完全 3D 表現を出力する新しい Transformer モデル「RnG」を提案するものである。

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

本論文は、マルチモーダル指令微調整の効率と堅牢性を向上させるため、視覚情報の必要性を定量化して高品質なデータサブセットを選択するフレームワーク「VisNec」を提案し、LLaVA-665K の 15% のデータでフルデータ並みの性能、Vision-Flan-186K ではそれを上回る性能を達成することを示しています。

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

本論文は、LLM 支援によるカテゴリー間・カテゴリー内アライメントと二重ブランチ構造を用いて入力座標系から物体の機能的役割を捉える正準空間表現を学習し、オープンワールドにおける 3D セマンティックな部分セグメンテーションの精度と転移性を大幅に向上させる「CoSMo3D」を提案しています。

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

本論文は、手首に取り付けられたカメラからの単眼画像と自然言語入力を基に、事前学習済みビジョン・言語モデル（VLM）を QLoRA により微調整し、人間とロボットの対話に適した 3 次元物体位置推定を実現する手法を提案し、その有効性を示したものである。

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

この論文は、既存の視覚言語モデルが安全ポリシーの変化に追従できない課題を解決するため、多様なポリシー下での一般化性能を評価する新しいベンチマーク「SafeEditBench」を提案し、検証可能な報酬を用いた強化学習手法「SafeGuard-VL」を開発して、動的に変化する安全ポリシーに適応する画像ガードレールの実現を目指したものです。

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

本論文は、大規模視覚言語モデルにおける視覚トークン剪定手法の分析を通じて、アテンションと多様性の特性を解明し、画像の複雑さに応じて適応的に調整する「AgilePruner」を提案することで、性能と幻覚抑制の両立を実現したものです。

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

MAMA-MIA チャレンジは、米国と欧州の多施設データを用いて乳房 MRI 画像の腫瘍セグメンテーションと治療反応予測のモデルを評価し、汎用性と公平性の向上を促進する大規模なベンチマークを提供するものである。

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

この論文は、拡散モデルを再学習させることなく、X 線 CT などの補助モダリティを活用して中性子 CT のスパースデータからの高品質な再構成を可能にするクロスモーダルガイダンス手法を提案し、その有効性を検証したものである。

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

この論文は、シャール緩和とブーア・モンテフィオ因子分解がファクターグラフの構造を保持するという洞察に基づき、既存の成熟したライブラリを用いて安全なロボット状態推定における大規模な凸緩和問題を効率的に解くための統一的なフレームワークを提案しています。

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

本論文は、自律走行における軌道予測の課題を解決するため、周波数領域と時間領域を統合し、長距離依存関係とマルチモーダル不確実性を線形時間計算量で効率的にモデル化する新しいフレームワーク「FoSS」を提案し、Argoverse ベンチマークにおいて最先端の精度を達成しながら計算コストとパラメータ数を大幅に削減することを示しています。

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

← 前へ次へ →

cs.CV

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

Certifiable Estimation with Factor Graphs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity