RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

本論文は、fMRI 画像の領域ごとのテキスト生成とマルチモーダル特徴融合を統合し、脳機能画像の低信号対雑音比や被験者間変動といった課題を克服して脳障害診断の精度を向上させる「RTGMFF」という新しいフレームワークを提案し、ADHD-200 および ABIDE ベンチマークで既存手法を上回る性能を実証したものである。

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

既存の評価基準の限界を克服するため、構成と推論の両方の能力を包括的かつ複雑に評価する新しいベンチマーク「T2I-CoReBench」を提案し、その実験により現在のテキストから画像生成モデルは高密度な構成や暗黙の推論において依然として大きな課題を抱えていることを明らかにしました。

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

本論文は、参照ベースの注意共有メカニズムと深度マップの活用によるビュー一貫性の向上、およびセグメンテーションマスクに基づく多領域スタイル転送を可能にする新しい損失関数の導入を通じて、テキスト駆動型の 3D シーンスタイライゼーションの品質と一貫性を大幅に改善する手法を提案しています。

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

この論文では、拡散トランスフォーマー(DiT)の推論遅延を削減し、中間ステップにおける特徴量の高い類似性を利用したブロック単位キャッシング(BWCache)を提案することで、視覚品質を維持したまま最大 6 倍の高速化を実現するトレーニング不要な手法を提示しています。

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

この論文は、深層特徴の内在的な幾何学構造を拡散マップと微分可能なニュートロム補間を用いてモデル化し、可視的かつ解釈可能な細粒度認識においてユークリッド距離に基づくプロトタイプ手法を大幅に上回る性能を達成する「GeoProto」という新たな手法を提案するものである。

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

本論文は、既存の三角形メッシュ変換方式の課題を克服し、混合トポロジーのトークン化と tDPO と呼ばれる強化学習微細化手法を採用することで、四角形メッシュを直接生成する初の自己回帰型フレームワーク「QuadGPT」を提案し、幾何学的精度とトポロジー品質の両面で大幅な改善を実現したことを示しています。

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

本論文は、有限速度の確率流と減衰波動方程式に基づく Kac 表現を導入し、終点のみでの蒸留と速度空間におけるクラスラフリーガイダンスを組み合わせることで、極めて少ない関数評価回数で高品質な画像を生成しつつ数値的安定性を維持する「DistillKac」と呼ばれる高速画像生成モデルを提案しています。

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

本論文は、既存の評価手法の限界を克服し、自動化パイプラインを用いた「感情ステートメント判定」タスクを提案することで、マルチモーダル大規模言語モデルの視覚的感情認識能力をオープンボキャブラリーかつ多角的に評価する新たな枠組みを構築し、現状のモデルと人間の間に依然として大きなギャップがあることを明らかにしています。

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

この論文は、医療画像セグメンテーションから導出されるメトリック(例:臓器の大きさ)の不確実性を効率的に保証するために、深層学習モデルの中間特徴量空間を利用した新しい共形予測フレームワーク「COMPASS」を提案し、従来の手法よりも狭い信頼区間を実現しつつ、共変量シフト下でも目標カバレッジを維持できることを示しています。

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

本論文は、視覚的認識から記号的推論に至るまでエンジニアリング設計の階層的プロセスを評価する新たなベンチマーク「CircuitSense」を提案し、既存のマルチモーダル大規模言語モデルが視覚情報の数式化において重大な限界を抱えていることを明らかにした。

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

この論文は、中間特徴空間を介さずに脳活動から直接画像を生成するフレームワーク「NeuroAdapter」と、拡散モデルの生成過程における脳領域の寄与を可視化する解釈性フレームワーク「IBBI」を提案し、脳信号に基づく視覚復元の透明性と解釈可能性を向上させたことを示しています。

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

本論文は、文字レベルの生成に依存する既存手法の課題を解決し、OCR 損失とスタイル分類損失による二重正則化を備えた InkVAE と、潜在拡散トランスフォーマーである InkDiT を組み合わせた「DiffInk」を提案することで、テキストから高品質かつ効率的な全行のオンライン手書き生成を実現するものです。

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs