cs.CV 件の論文 | Gist.Science

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

この論文は、教師-学生蒸留アプローチ、アイデンティティ固定、時間的正則化、および視覚音素に基づく音声条件付けを統合した「TempoSyncDiff」を提案し、低遅延かつ時間的に一貫した高品質な音声駆動トークングヘッド生成を実現する軽量潜在拡散フレームワークを提示しています。

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

本論文は、ロボティクスや自動運転で収集された既存の全方向 RGB-LiDAR ログを、歪み補正や効率的なサンプリング、マルチモーダル登録などの処理を経て 3D ガウススプラッティング（3DGS）の初期化資産へと変換し、高品質なデジタルツイン構築を可能にするパイプラインを提案するものです。

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

この論文は、テキストと変化する感情記述を入力として、自然な感情の連続的な変化を反映したリアルな喋り顔動画を生成する新たなタスク「EC-TFG」と、そのための時感情変動モデリングを採用したモデル「TIE-TFG」を提案し、滑らかな感情遷移と高品質な視覚的・運動的実在性を達成することを示しています。

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

この論文は、LLM や MLLM のハルシネーション検出を動的システム安定性理論の観点から捉え、事実知識を安定な平衡点、ハルシネーションを不安定な領域の境界とみなすことで、入力摂動に対する信頼度の単調減少を強制する軽量な「Lyapunov Probes」を提案し、既存の手法を上回る検出性能を実現したことを報告しています。

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

本論文は、RGB 画像の符号化に代わって深度画像の特性を活用し、専用データセットと改良されたエンコーダを導入することで、3 次元シーン理解を飛躍的に向上させた初の深度特化型マルチモーダル大規模言語モデル「DeepSight」を提案するものである。

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

この論文は、監視映像やビデオ通話などの静止シーン動画において、短期間の時間的変化を「ポジティブ・インセンティブ・ノイズ」として再解釈し、モデルの微調整に活用することで、従来のニューラル動画圧縮が抱える課題を克服し、画素レベルの忠実度を維持しながら帯域幅を大幅に削減する手法を提案しています。

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

FedARKS は、個人再識別におけるフェデレーテッドドメイン汎化の課題である、局所的な詳細の欠如と高品質クライアントの貢献の希薄化を克服するため、頑健な知識と選択的統合の二つのメカニズムを導入した新しいフレームワークを提案するものです。

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

本論文は、拡散モデルの推論高速化において低解像度生成と高解像度教師モデル間の分布ギャップを解消し、高忠実度を維持しながら SDXL や Wan2.1-14B などで最大 33.4 倍の高速化を実現する「クロス解像度分布整合蒸留（RMD）」という新たな蒸留フレームワークを提案するものである。

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

本論文は、マルチモーダル大規模言語モデル（MLLM）の環境認識推論能力を活用し、「思考してから配置する」パラダイムと閉ループ反復最適化を導入することで、物理的な整合性を保った高品質な動画オブジェクト挿入を実現するフレームワーク「Place-it-R1」を提案するものです。

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

本論文は、空間色混合による歪みを用いた視覚言語モデルの知覚的脆弱性を評価し、人間との性能差を明らかにするとともに、人間の知覚に着想を得た前処理がモデルの頑健性向上に有効であることを示しています。

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

本論文は、非小細胞肺癌（NSCLC）患者の放射線治療中の腫瘍進化を予測するため、投与線量や臨床変数を条件としたマルチモーダル生成モデル（特に拡散モデル）を用いた「仮想治療（VT）」フレームワークを提案し、その有効性を検証したものである。

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

本論文は、視覚言語モデル（VLM）が標準的な高品質データでは高い性能を発揮する一方で、現実世界の画像歪み、特に低強度の空間的変換や幾何学的歪みに脆弱であることを示す包括的なベンチマーク「VLM-RobustBench」を提案し、現在のモデルが意味理解は優れているものの空間的頑健性に課題があることを明らかにしています。

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

この論文は、従来の拡散モデルでは機能しにくいフローマッチングモデル（FLUX など）向けに、理論的根拠に基づきトレーニング不要で生成品質とプロンプト整合性を向上させる「Reflective Flow Sampling」という新しい推論強化フレームワークを提案し、その有効性とテスト時スケーリング能力を実証しています。

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

この論文は、事前学習済み基盤モデルを活用して学習なしで多視点画像からセマンティックおよびパノプティックな占有予測を可能にする「FreeOcc」を提案し、教師なしおよび弱教師あり設定において最先端の性能を達成することを示しています。

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

本論文は、視覚言語モデルを用いたトレーニング不要の疑似ラベル生成とラベル精緻化を組み合わせた半教師あり学習フレームワークを提案し、限られたアノテーションデータでも乳房超音波画像のセグメンテーションにおいて完全教師ありモデルに匹敵する性能を達成することを示しています。

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

← 前へ次へ →

cs.CV