TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

本論文は、ロボティクスや自動運転で収集された既存の全方向 RGB-LiDAR ログを、歪み補正や効率的なサンプリング、マルチモーダル登録などの処理を経て 3D ガウススプラッティング(3DGS)の初期化資産へと変換し、高品質なデジタルツイン構築を可能にするパイプラインを提案するものです。

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

この論文は、テキストと変化する感情記述を入力として、自然な感情の連続的な変化を反映したリアルな喋り顔動画を生成する新たなタスク「EC-TFG」と、そのための時感情変動モデリングを採用したモデル「TIE-TFG」を提案し、滑らかな感情遷移と高品質な視覚的・運動的実在性を達成することを示しています。

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

この論文は、LLM や MLLM のハルシネーション検出を動的システム安定性理論の観点から捉え、事実知識を安定な平衡点、ハルシネーションを不安定な領域の境界とみなすことで、入力摂動に対する信頼度の単調減少を強制する軽量な「Lyapunov Probes」を提案し、既存の手法を上回る検出性能を実現したことを報告しています。

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

この論文は、監視映像やビデオ通話などの静止シーン動画において、短期間の時間的変化を「ポジティブ・インセンティブ・ノイズ」として再解釈し、モデルの微調整に活用することで、従来のニューラル動画圧縮が抱える課題を克服し、画素レベルの忠実度を維持しながら帯域幅を大幅に削減する手法を提案しています。

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

FedARKS は、個人再識別におけるフェデレーテッドドメイン汎化の課題である、局所的な詳細の欠如と高品質クライアントの貢献の希薄化を克服するため、頑健な知識と選択的統合の二つのメカニズムを導入した新しいフレームワークを提案するものです。

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

本論文は、拡散モデルの推論高速化において低解像度生成と高解像度教師モデル間の分布ギャップを解消し、高忠実度を維持しながら SDXL や Wan2.1-14B などで最大 33.4 倍の高速化を実現する「クロス解像度分布整合蒸留(RMD)」という新たな蒸留フレームワークを提案するものである。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

本論文は、マルチモーダル大規模言語モデル(MLLM)の環境認識推論能力を活用し、「思考してから配置する」パラダイムと閉ループ反復最適化を導入することで、物理的な整合性を保った高品質な動画オブジェクト挿入を実現するフレームワーク「Place-it-R1」を提案するものです。

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

本論文は、非小細胞肺癌(NSCLC)患者の放射線治療中の腫瘍進化を予測するため、投与線量や臨床変数を条件としたマルチモーダル生成モデル(特に拡散モデル)を用いた「仮想治療(VT)」フレームワークを提案し、その有効性を検証したものである。

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

本論文は、視覚言語モデル(VLM)が標準的な高品質データでは高い性能を発揮する一方で、現実世界の画像歪み、特に低強度の空間的変換や幾何学的歪みに脆弱であることを示す包括的なベンチマーク「VLM-RobustBench」を提案し、現在のモデルが意味理解は優れているものの空間的頑健性に課題があることを明らかにしています。

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

この論文は、従来の拡散モデルでは機能しにくいフローマッチングモデル(FLUX など)向けに、理論的根拠に基づきトレーニング不要で生成品質とプロンプト整合性を向上させる「Reflective Flow Sampling」という新しい推論強化フレームワークを提案し、その有効性とテスト時スケーリング能力を実証しています。

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

本論文は、視覚言語モデルを用いたトレーニング不要の疑似ラベル生成とラベル精緻化を組み合わせた半教師あり学習フレームワークを提案し、限られたアノテーションデータでも乳房超音波画像のセグメンテーションにおいて完全教師ありモデルに匹敵する性能を達成することを示しています。

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

この論文は、3D ポイントクラウドとパノラマ画像の両方から基礎的なビジョン・言語特徴を抽出・整合させることで、自然言語クエリに基づいたオープンボキャブラリー意味セグメンテーションを実現し、既存の最先端手法を大幅に上回る性能を示す「JOPP-3D」という新しいフレームワークを提案しています。

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

既存のトレーニング不要な拡散セグメンテーション手法が、強力な生成モデルの性能向上に比例して精度が向上しない原因となる「アテンションマップの統合欠如」と「スコア不均衡」という 2 つの課題を、自動集約とピクセルごとの再スケーリングという 2 つの手法で解決し、生成能力を最大限に活用した高精度なセグメンテーションを実現する研究です。

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

この論文は、人間の動きとヒューマノイドロボットの動きを視覚情報なしで区別する「モーション・チューリング・テスト」の枠組みを提案し、その評価に特化した大規模データセット「HHMotion」を構築するとともに、既存のマルチモーダル大規模言語モデルよりも優れた人間の動きらしさの自動評価モデルを開発したことを報告しています。

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs