Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

本論文は、電子顕微鏡画像のドメイン適応セグメンテーションにおいて、スパースな点と局所的な人間の好みを弱教師信号として活用し、自己学習とプロンプト誘導対照学習を統合した「Prefer-DAS」を提案することで、既存の手法や教師ありモデルに匹敵する高い汎用性と精度を実現したことを報告しています。

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

本論文は、全スライド画像の肝細胞癌診断における解像度と特徴集約の課題を解決するため、組織の 2 次元トポロジーを明示的にモデル化する「Sparse Topo-Pack Attention」機構と専門家による検証済み大規模データセット「HepatoPathoVQA」を導入した、専門的なマルチモーダル大規模言語モデル「Hepato-LLaVA」を提案し、診断およびキャプション生成タスクにおいて既存手法を凌駕する性能を達成したことを報告しています。

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

本論文は、医療画像セグメンテーションモデルの信頼性向上に向け、因果推論フレームワークを用いて入力領域やネットワーク構成要素がセグメンテーション結果に与える影響を定量化する新たな説明手法を提案し、既存手法よりも忠実な説明とモデル間の知覚戦略の多様性に関する洞察を提供することを示しています。

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

本論文は、大規模画像データセットの各画像内にある色空間の冗長性を削減しつつモデル学習に不可欠な情報を保持する「Dataset Color Quantization(DCQ)」という統合フレームワークを提案し、CIFAR や ImageNet などの実験を通じて、集約的な圧縮下でもトレーニング性能を大幅に向上させることを実証しています。

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

本論文は、安全な参照画像に悪意あるテキストプロンプトの意図を視覚的指示として埋め込む「Visual Instruction Injection(VII)」という訓練不要かつ転移可能な手法を提案し、画像から動画生成するモデルのセキュリティリスクを明らかにし、複数の最先端モデルにおいて高い攻撃成功率を達成したことを示しています。

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

この論文は、任意の軌道と車両による写真実感的な運転シミュレーションを実現するため、編集可能なガウススプラットとメッシュの組み合わせ、ノイズを考慮した動画拡散プロセス、および包括的な評価ベンチマーク「HorizonSuite」を提案する統合フレームワーク「HorizonForge」を紹介しています。

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

この論文は、単眼深度から光と幾何学の相互作用を符号化する「Light-Geometry Interaction (LGI) マップ」を提案し、これを生成モデルに組み込むことで、物理的に整合性の取れた影の生成と再照明を統合的に実現する手法と、そのための大規模データセットを提示するものである。

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

本論文は、ユーザーの美的意図を推論し木探索による多段階アクション計画と閉ループ実行を組み合わせることで、ステップごとの指示なしに自律的な高品質な写真編集を実現する「PhotoAgent」システムと、その評価のためのベンチマーク「UGC-Edit」を提案するものである。

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

本論文は、全スライド画像の空間的階層構造と多スケール情報を動的グラフと知識誘導アテンションで統合する階層的マルチスケール知識認識グラフネットワーク(HMKGN)を提案し、がん患者の生存予測において既存の MIL ベースのモデルを有意に上回る性能を達成したことを報告しています。

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

40 名の fMRI 画像データを用いた前駆期パーキンソン病の検出研究において、画像レベルではなく厳密な被験者レベルでデータを分割して評価した結果、情報漏れを防ぎ、パラメータ数の少ない軽量モデル(MobileNet V1)が深いモデルよりも優れた汎化性能を示すことが明らかになった。

Naimur Rahman2026-03-03🤖 cs.LG

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

本論文は、限られた視覚情報からエネルギー性能証明書(EPC)を自動推定するための低コストなマルチモーダルモジュラーチェーン・オブ・思考(MMCoT)フレームワークを提案し、英国の住宅データを用いた実験で従来の指示のみによるプロンプト手法よりも統計的に有意な精度向上と順序構造の捕捉を実現したことを示しています。

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI