cs.CV 件の論文 | Gist.Science

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

本論文は、創薬や教育などへの応用を視野に、マイクロスケールのシミュレーション評価基準「MicroWorldBench」と高品質データセット「MicroSim-10K」を構築し、これらを用いて生物学的メカニズムを正確に再現する動画生成モデル「MicroVerse」を開発したことを報告しています。

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

本論文は、既存の視覚言語行動モデルが言語指示を十分に理解できていないという課題を明らかにし、これを診断するための新しいベンチマーク「LangGap」を提案するとともに、データ拡張による部分的な改善と、言語の多様性に対するモデルの根本的な限界を示しています。

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

本論文は、画像、テキスト、音声の各モダリティにおける多段階の計数能力を包括的に評価するための統一ベンチマーク「UNICBench」とその評価ツールキットを提案し、45 の最先端マルチモーダル大規模言語モデルの性能を厳密に検証することで、推論や難易度の高いタスクにおける顕著な課題を浮き彫りにしています。

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

本論文は、リモートセンシング画像セグメンテーションにおけるラベルノイズの推定とランキングを目的とした、新しいデータ中心のベンチマーク、公開データセット、およびモデルの不確実性や予測の一貫性などを活用したノイズ検出手法を提案し、既存の手法を上回る性能を実証したものである。

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

本論文は、Flow Matching 拡散モデルに基づき、適応的ステップスケジュールと badcase 駆動の VLM、そしてグループレベルの DPO を統合した「IdGlow」を提案し、複数の被写体を自然に融合させつつ、年齢変換などの複雑な構造変形においてもアイデンティティと構造的整合性を両立させることを可能にする画期的なフレームワークを提示しています。

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

本論文は、異なるモダリティを持つエージェント間の共起データが存在しない「モダリティ隔離」問題に対処するため、空間的対応を必要とせずコードブックを介した特徴量間変換により効率的にモダリティを整合させる新たなフレームワーク「CodeAlign」を提案し、OPV2V および DAIR-V2X データセットにおいて最先端の性能を達成したことを報告しています。

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

本論文は、動画レベルの圧縮分光復元を可能にする高品質な動的ハイパースペクトル画像データセット「DynaSpec」を構築し、時空間特徴の伝播を活用して復元品質と時間的一貫性を向上させた新しいモデル「PG-SVRT」を提案するとともに、実世界でのベンチマーク評価を行う包括的な研究です。

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

本論文は、3D データのクラス分布の偏りによる評価指標間の矛盾を解決するため、クラスごとの保持クォータと事前分布不変な教師あり学習を組み合わせた新しいデータセット剪定手法を提案し、複数の 3D データセットにおいて精度と平均精度の両方を向上させることを示しています。

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

本論文は、深度の曖昧さや空間的な分散による誤整合を解消するため、レーダーを基準とした幾何学的合意を確立し、4D レーダーとカメラのデータを融合する初の協調知覚フレームワーク「RC-GeoCP」を提案し、通信オーバーヘッドを大幅に削減しながら最先端の性能を達成することを示しています。

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

既存のマルチモーダル大規模言語モデルが抱える視覚特徴の階層的抽象化による詳細情報の消失や言語モデルとの分布ミスマッチの問題を解決するため、視覚エンコーダ内部に再帰的に更新されるクロスレイヤメモリを導入し、表現進化を制御する新しいフレームワーク「SCVM」を提案し、言語モデルの微調整や追加の視覚エンコーダなしで複数のベンチマークにおいて一貫した性能向上を実現したことを示しています。

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

本論文は、病理医がスライドを閲覧する際の「広範囲に探索し、関心領域を詳細に確認する」という人間の視覚的アプローチを模倣し、質問に応じた組織領域と情報量の多いパッチを段階的に選択するフレームワーク「HistoSelect」を提案することで、計算効率を大幅に向上させながら病理質問応答の精度と解釈可能性を高めることを目指しています。

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

本論文は、低磁場 MRI の undersampled k-space データから高画質画像を直接再構築する新たな k-space 双チャンネル U-Net フレームワークを提案し、空間領域の手法を上回る性能とフル k-space 取得に匹敵する画質の達成を実証したものである。

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

本論文は、大規模な頭部 CT 画像データを用いた検証により、複数の専門的低ランクアダプターと教師なしソフトルーティングを組み合わせた「Mixture of Low-Rank Experts (MoLRE)」フレームワークが、既存の医療画像基盤モデルの性能を大幅に向上させ、特に汎用および医療ドメインモデルにおいて顕著な検出精度の改善をもたらすことを示しています。

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

本論文は、帯域幅制約下で重要な情報を保持する前景感知ポイントサンプリング、受信した疎な入力からの密な柱の再構成と融合を行う補完強化早期融合、およびトレーニング中の整合性を確保する密ガイド二重アライメントという 3 つの設計を統合し、通信コストを低減しながら高性能な協調知覚を実現する「CoLC」と呼ばれるフレームワークを提案しています。

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

この論文は、外部データや事前学習を必要とせず、空間的非局所類似性と投影領域の共役性質を活用して疑似 3D データを生成する自己教師あり学習により、超低データ条件下でも高忠実度かつ高速な CT 画像再構成を実現する「SCOUT」という手法を提案しています。

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

本論文は、SAM 生成マスクによる前景強調、全トークンを活用する適応的再配分、および高次関係性を捉えるクロスモーダル超グラフ相互作用を組み合わせた STMI を提案し、マルチモーダル物体再識別の精度向上を実現するものである。

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

← 前へ次へ →

cs.CV