Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

この論文は、CLIP ベースの視覚エンコーダが抱える細粒度理解の課題と DINOv3 が持つ粗粒度抽象化の欠点を補うため、テキスト入力に応じて視覚抽象化レベルを動的に調整する「Granulon」という新しいマルチモーダル大規模言語モデルを提案し、単一のフォワードパスでピクセルから粗粒度までを統合的に推論可能にすることで、精度の向上とハルシネーションの削減を実現したことを示しています。

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

この論文は、3D ガウススプラッティングの品質を損なわずにロバストな透かし埋め込みを実現し、どのガウスプリミティブに情報を埋め込み、なぜそれが選択されたかを説明可能な「Trio-Experts」モジュールと「SBAG」ゲートを用いた新しいフレームワークを提案するものです。

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

本論文は、視覚生成エージェントにおける中間エラー修正のための体系的なリフレクション機構の欠如を解決するため、リフレクションと計画の非対称性を踏まえた「リフレクション・プラン共最適化(RPCO)」トレーニング手法を提案し、これにより単一画像および複数画像タスクにおいて既存のベンチマークで Gemini2.5 Pro を凌駕する VisionCreator-R1 を開発したことを報告しています。

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

本論文は、4 種類の癌でバランスよく学習された軽量な深層学習モデル「MuCTaL」を開発し、既知の癌種だけでなく未知の癌種(膵管癌など)に対しても高い汎化性能を示す、実用可能なマルチ癌種腫瘍局在化フレームワークを提案しています。

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

本論文は、CARLA 環境における物理的パッチ攻撃を用いたブラックボックス評価により、Dolphins、OmniDrive、LeapVAD という 3 つの VLM 型自律運転アーキテクチャがすべて深刻な脆弱性を有し、安全性を脅かす多フレームにわたる失敗や物体検出の劣化を引き起こすことを明らかにしています。

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

本論文では、外部の視覚的クエリに基づいて未編集動画内の対象物をピクセルレベルで全て検出する新たなタスク「視覚的クエリセグメンテーション(VQS)」を提案し、そのための大規模ベンチマーク「VQS-4K」と、SAM 2 を拡張した高性能な手法「VQ-SAM」を併せて紹介しています。

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

この論文は、甲状腺超音波画像のセグメンテーションと悪性度評価という競合するタスクにおいて、異なるアーキテクチャ(CNN と ViT)がドメインシフト下で異なる特徴を保持する傾向を明らかにし、マルチカーネルゲートアダプタ(MKGA)を導入することで、クロスセンター環境における頑健性と診断精度を向上させる手法を提案しています。

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

この論文は、臨床ガイドラインと視覚言語モデルを統合し、画像特徴・概念・診断を同時に学習して構造化された臨床ナラティブを生成する「MedCBR」という新しい概念ベースの推論フレームワークを提案し、医療画像診断の精度と解釈可能性を大幅に向上させることを示しています。

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

本論文は、拡散トランスフォーマー(DiT)が高解像度生成時に生じる構造的劣化やアティション希薄化の問題を、追加のサンプリングコストなしに解決し、任意の解像度とアスペクト比での高品質な画像生成を実現するトレーニング不要の手法「TIDE」を提案するものである。

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

この論文は、ドローン画像から植物シミュレーションの構成パラメータを生成するために、コンテキスト学習を活用したビジョン言語モデル(VLM)を初めて導入し、合成データと実世界のデータを用いてその性能と限界を評価した研究です。

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

この論文は、音声と視覚信号の動的な変化に対応し、カタストロフィック・フォージングを回避するために、低ランクアンカリング(LRA)を用いた強固なベースライン「ATLAS」と、音声視覚セグメンテーションにおける最初のサンプルフリー継続学習ベンチマークを提案するものです。

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

本論文は、拡散トランスフォーマーにおけるスパースアテンションの計算コスト削減と情報損失の両立を可能にするため、クラスタセントロイドを用いたパラメータ不要の線形補償と、補償誤差を推定するエラー感知ルーティングを組み合わせた「SVG-EAR」を提案し、動画生成の品質を維持しつつ大幅な高速化を実現したものである。

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

本論文は、手術室の無菌環境やワークフローを乱すことなく、ガウススプラッティングに基づくマーカーレスな自動手眼較正フレームワーク「SurgCalib」を提案し、da Vinci 手術ロボットにおける高精度なツール位置推定を実現したものである。

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs