AdaGen: Learning Adaptive Policy for Image Synthesis

画像合成の反復生成プロセスにおけるステップ固有のパラメータ調整を、強化学習に基づく適応型ポリシー(AdaGen)と敵対的報酬設計により自動化し、多様な生成モデルにおいて低コストで高品質かつ多様性に優れた結果を実現する手法を提案する論文です。

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

本論文は、ロボティック手術における器具と組織の相互作用認識の精度向上を目指し、軌道情報を活用して時間的運動の手がかりを取り込み、視覚とテキストの微細なアライメントを改善する新しいフレームワーク「TrajPred」を提案し、CholecT50 ベンチマークでの実験によりその有効性を実証しています。

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

本論文は、DEIMv2 フレームワークを基盤とし、クエリ補完戦略と複数の訓練サンプルを構造化グリッドに合成する「GridSynthetic」というデータ拡張手法を導入することで、リアルタイム性と高精度を両立し、特に希少カテゴリでの性能を飛躍的に向上させた新たなオープンボキャブラリー物体検出モデル「OV-DEIM」を提案するものである。

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

この論文は、テキストから動画を生成するモデルが、有害な内容を含む中間フレームを自主的に生成してしまう「時間的軌道補間」の脆弱性を発見し、これを悪用して安全性フィルタを回避する新たな攻撃手法「TFM」を提案し、その有効性を複数のモデルで実証したものである。

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

本論文は、マクロ表情の事前知識を活用した動的符号化モジュールと、2D 運動・顔の事前知識・3D 幾何学情報を統合した動的ガイドメッシュ変形モジュールを導入することで、微細で一時的なマイクロ表情の 3D 再構成における精度と細部表現を飛躍的に向上させる手法を提案しています。

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

この論文は、マルチ画像タスクにおける大規模視覚言語モデルの幻覚を軽減するため、画像間の注意メカニズムを調整し、真の視覚証拠に基づく選好学習を行う構造化フレームワーク「CAPL」を提案し、マルチ画像の性能向上と単一画像タスクへの汎化能力の維持を実現したことを示しています。

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Diffusion Transformer の推論効率と生成品質の両立を課題とし、固定されたヒューリスティック手法の限界を克服するため、微細な感度に基づいてキャッシュ間隔を動的計画法で最適化し、トークンごとの剪定を適応的に制御する「SODA」という新しい手法を提案し、複数のモデルで最先端の性能を達成したことを示す論文です。

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer は、拡散トランスフォーマーのクロスアテンション層における活性化操作を用いて、トレーニング不要で解剖学的構造を維持したまま病変概念のみを反転させる対照的エンドスコピック画像合成フレームワークを提案し、既存手法を上回る構造保存性と臨床概念の転換精度を達成したことを示しています。

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

本論文は、視覚言語モデル(VLM)のセマンティックな事前知識を物理的散乱パラメータに変換し、連続的な信頼度マップを用いて物理的反転と時系列参照復元を適応的に統合することで、明示的な境界線なしに高忠実度かつ一貫性のある全雲除去を実現する「PhyVLM-CR」という新規手法を提案し、実世界の Sentinel-2 画像による実験で既存手法を上回る精度とハルシネーションの抑制を実証したものである。

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

本論文は、既存の音声・動画分離型透かし技術が抱える「交換攻撃」の脆弱性を克服し、音声と動画の潜在空間を暗号的に紐付けることで、生成モデルの著作権保護と真正性保証を可能にする、Joint Audio-Visual 生成モデル専用に設計された新しい透かしフレームワーク「mAVE」を提案するものです。

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

この論文は、話者の多モーダル信号を基にリスナーの表情を生成する際に、視覚的バイアスを排除した行動学習プロセスと人間のフィードバックに基づく強化学習を組み合わせることで、自然な双方向対話において人間の好みに合致した表情生成を実現する手法を提案しています。

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

本論文は、組織病理画像における核検出を「次の点の予測」として再定式化し、多モーダル大規模言語モデルを用いて厳密な中心点一致を緩和する教師あり学習と分布一致報酬を用いた強化学習の 2 段階トレーニングにより、9 つのベンチマークで既存手法を上回る性能を実現する NuNext を提案しています。

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

本論文は、マスク画像モデルの計算コストや対照学習の過剰なデータ拡張の問題を解決し、単一の胸部 X 線画像を意味的に分割して部分情報から全体構造を推論させる「意味分割対照学習(S-PCL)」を提案することで、低計算コストかつ高精度な自己教師あり学習を実現する手法を提示しています。

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

この論文は、実際の多焦点画像の訓練データが不要な「画像間ピクセルシャッフル(IPS)」手法を提案し、シャープな画像とローパスフィルタ処理画像のピクセルをランダムに混合して生成した合成データで深層学習モデルを訓練することで、既存手法を凌駕する高品質な多焦点画像融合を実現するものです。

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本論文は、一般目的の視覚エンコーダの限界と言語モデルのハルシネーションという 2 つの課題を解決するため、専門家の知識を深層に注入し、網膜画像の微細な病変信号を強化して推論を視覚証拠に厳密に固定するデータ効率型フレームワーク「EyExIn」を提案し、眼科 VQA において最先端の精度を達成したことを報告しています。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

この論文は、追加の目的関数やアノテーションなしに標準的な次トークン予測損失のみで学習可能な軽量な「AutoSelect」を提案し、視覚トークンの重要度に基づいたノイズゲート制御により、視覚言語モデルの推論コストを大幅に削減しつつ精度をほぼ維持する自動トークン選択手法を確立したことを報告しています。

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs