cs.CV 件の論文 | Gist.Science

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

本論文は、既存の評価手法の限界を克服するため、10 次元の能力指向ベンチマーク「M-JudgeBench」を提案し、MCTS を駆使したデータ生成フレームワーク「Judge-MCTS」を用いて高品質な判断モデル「M-Judger」を構築・検証することで、マルチモーダル大規模言語モデルの判断能力評価とトレーニングの新たな基盤を確立したものである。

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

この論文は、動画レベルの教師信号のみを用いた弱教師あり動画異常検出の課題を解決するため、異常のセマンティクスを学習し、類似する正常・異常行動を区別する「LAS-VAD」という新しいフレームワークを提案し、XD-Violence および UCF-Crime データセットにおいて最先端の性能を達成したことを報告しています。

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

本論文は、手術室環境におけるキャリブレーションの不安定性がもたらす幾何学的不一致を解消し、単一のグローバルスケールを持つ整合的なカメラ設定を構築する「Multi-view Metric Geometry Rectification」モジュールと、これに基づく遮蔽に強い 3 次元ポイント追跡を組み合わせた「Geometry OR Tracker」を提案し、MM-OR ベンチマークにおいて深度不一致を 30 倍以上削減して追跡精度を大幅に向上させることを示しています。

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

本論文は、有害な意味を複数の視覚的要素に分散させ、画像間の推論を通じて段階的に再構成することで、最先端のマルチモーダル大規模言語モデルのセキュリティメカニズムを回避し、平均攻撃成功率 81.46% を達成する新しいマルチモーダル脱獄フレームワーク「MIDAS」を提案しています。

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

本論文は、マルチモーダルモデルのテスト時適応において、バイアス付きモダリティの可塑性とバイアスなしモダリティの安定性を、特徴次元間の冗長性の差異に基づいて診断し、非対称なアダプター構造を用いてそれぞれに最適化された更新戦略を適用する「DASP」という新たなフレームワークを提案し、既存手法を大幅に上回る性能を実現したことを示しています。

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

本論文は、創薬や教育などへの応用を視野に、マイクロスケールのシミュレーション評価基準「MicroWorldBench」と高品質データセット「MicroSim-10K」を構築し、これらを用いて生物学的メカニズムを正確に再現する動画生成モデル「MicroVerse」を開発したことを報告しています。

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

本論文は、既存の視覚言語行動モデルが言語指示を十分に理解できていないという課題を明らかにし、これを診断するための新しいベンチマーク「LangGap」を提案するとともに、データ拡張による部分的な改善と、言語の多様性に対するモデルの根本的な限界を示しています。

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

本論文は、画像、テキスト、音声の各モダリティにおける多段階の計数能力を包括的に評価するための統一ベンチマーク「UNICBench」とその評価ツールキットを提案し、45 の最先端マルチモーダル大規模言語モデルの性能を厳密に検証することで、推論や難易度の高いタスクにおける顕著な課題を浮き彫りにしています。

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

本論文は、リモートセンシング画像セグメンテーションにおけるラベルノイズの推定とランキングを目的とした、新しいデータ中心のベンチマーク、公開データセット、およびモデルの不確実性や予測の一貫性などを活用したノイズ検出手法を提案し、既存の手法を上回る性能を実証したものである。

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

本論文は、Flow Matching 拡散モデルに基づき、適応的ステップスケジュールと badcase 駆動の VLM、そしてグループレベルの DPO を統合した「IdGlow」を提案し、複数の被写体を自然に融合させつつ、年齢変換などの複雑な構造変形においてもアイデンティティと構造的整合性を両立させることを可能にする画期的なフレームワークを提示しています。

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

本論文は、異なるモダリティを持つエージェント間の共起データが存在しない「モダリティ隔離」問題に対処するため、空間的対応を必要とせずコードブックを介した特徴量間変換により効率的にモダリティを整合させる新たなフレームワーク「CodeAlign」を提案し、OPV2V および DAIR-V2X データセットにおいて最先端の性能を達成したことを報告しています。

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

本論文は、動画レベルの圧縮分光復元を可能にする高品質な動的ハイパースペクトル画像データセット「DynaSpec」を構築し、時空間特徴の伝播を活用して復元品質と時間的一貫性を向上させた新しいモデル「PG-SVRT」を提案するとともに、実世界でのベンチマーク評価を行う包括的な研究です。

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

← 前へ次へ →

cs.CV

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

Geometry OR Tracker: Universal Geometric Operating Room Tracking

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

UNICBench: UNIfied Counting Benchmark for MLLM

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

Linking Modality Isolation in Heterogeneous Collaborative Perception

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Exploring 3D Dataset Pruning

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

Stateful Cross-layer Vision Modulation

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

Direct low-field MRI super-resolution using undersampled k-space

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion