Cross-Resolution Distribution Matching for Diffusion Distillation

本論文は、拡散モデルの推論高速化において低解像度生成と高解像度教師モデル間の分布ギャップを解消し、高忠実度を維持しながら SDXL や Wan2.1-14B などで最大 33.4 倍の高速化を実現する「クロス解像度分布整合蒸留(RMD)」という新たな蒸留フレームワークを提案するものである。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

本論文は、マルチモーダル大規模言語モデル(MLLM)の環境認識推論能力を活用し、「思考してから配置する」パラダイムと閉ループ反復最適化を導入することで、物理的な整合性を保った高品質な動画オブジェクト挿入を実現するフレームワーク「Place-it-R1」を提案するものです。

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

本論文は、非小細胞肺癌(NSCLC)患者の放射線治療中の腫瘍進化を予測するため、投与線量や臨床変数を条件としたマルチモーダル生成モデル(特に拡散モデル)を用いた「仮想治療(VT)」フレームワークを提案し、その有効性を検証したものである。

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

本論文は、視覚言語モデル(VLM)が標準的な高品質データでは高い性能を発揮する一方で、現実世界の画像歪み、特に低強度の空間的変換や幾何学的歪みに脆弱であることを示す包括的なベンチマーク「VLM-RobustBench」を提案し、現在のモデルが意味理解は優れているものの空間的頑健性に課題があることを明らかにしています。

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

この論文は、従来の拡散モデルでは機能しにくいフローマッチングモデル(FLUX など)向けに、理論的根拠に基づきトレーニング不要で生成品質とプロンプト整合性を向上させる「Reflective Flow Sampling」という新しい推論強化フレームワークを提案し、その有効性とテスト時スケーリング能力を実証しています。

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

本論文は、視覚言語モデルを用いたトレーニング不要の疑似ラベル生成とラベル精緻化を組み合わせた半教師あり学習フレームワークを提案し、限られたアノテーションデータでも乳房超音波画像のセグメンテーションにおいて完全教師ありモデルに匹敵する性能を達成することを示しています。

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

この論文は、3D ポイントクラウドとパノラマ画像の両方から基礎的なビジョン・言語特徴を抽出・整合させることで、自然言語クエリに基づいたオープンボキャブラリー意味セグメンテーションを実現し、既存の最先端手法を大幅に上回る性能を示す「JOPP-3D」という新しいフレームワークを提案しています。

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

既存のトレーニング不要な拡散セグメンテーション手法が、強力な生成モデルの性能向上に比例して精度が向上しない原因となる「アテンションマップの統合欠如」と「スコア不均衡」という 2 つの課題を、自動集約とピクセルごとの再スケーリングという 2 つの手法で解決し、生成能力を最大限に活用した高精度なセグメンテーションを実現する研究です。

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

この論文は、人間の動きとヒューマノイドロボットの動きを視覚情報なしで区別する「モーション・チューリング・テスト」の枠組みを提案し、その評価に特化した大規模データセット「HHMotion」を構築するとともに、既存のマルチモーダル大規模言語モデルよりも優れた人間の動きらしさの自動評価モデルを開発したことを報告しています。

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本論文は、胸部 X 線レポート生成の評価において、診断の正確性や患者の安全性を重視し、臨床的コンテキストやガイドラインに基づいてエラーの重大度を重み付けする新しいメトリクス「CRIMSON」を提案し、複数のベンチマークで専門医の判断と高い一致を示したことを報告しています。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

この論文は、組織画像と空間トランスクリプトミクスデータを深層学習で融合し、異なるサンプルやプラットフォーム間でも高精度にがん領域を検出する転移学習ベースの手法「SpaCRD」を提案し、23 のデータセットを用いた検証で既存の最先端手法を上回る性能を実証したものである。

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

この論文は、フレームレベルの注記を必要とする従来の完全教師あり手法の課題を解決するため、各動作セグメントに単一のフレームのみをラベル付けするポイント教師ありフレームワークを提案し、マルチモーダル骨格データと擬似ラベル生成技術を活用して、注記コストを大幅に削減しながらも完全教師あり手法に匹敵する、あるいは凌駕する動作セグメント性能を達成することを示しています。

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

この論文は、階層的事象グラフ(HEG)に基づく「事象の連鎖(Chain-of-Events)」を導きとして、ドメイン固有の教師データなしに動画、テキスト、画像を統合的に理解し、最先端の手法を上回る精度でマルチモーダル要約を実現するトレーニングフリーのフレームワーク「CoE」を提案するものです。

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

本論文は、3D ガウシアンスプラッティングにおいて、共分散行列の固有値から算出される固有エントロピーを用いて局所構造の秩序度を評価し、低秩序領域を優先的に増密・高秩序領域を剪定する「EntON」という幾何学的に正確かつ高品質な 3D 再構成を実現する新たな適応的増密戦略を提案し、幾何精度とレンダリング品質の向上、およびガウス数と訓練時間の削減を同時に達成することを示しています。

Miriam Jäger, Boris Jutzi2026-03-09💻 cs