QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本論文は、モデル量子化とアテンション疎化を統合し、マルチスケールな注目蒸留と第二次数疎アテンション再パラメトリゼーションを導入することで、HunyuanVideo-13B において既存の量子化手法を大幅に上回る画質を維持しつつ、ストレージを 3.68 倍、推論速度を 1.88 倍に改善する「QuantSparse」という動画生成トランスフォーマーの圧縮フレームワークを提案しています。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

本論文は、テキスト、音楽、先行モーションなど多様な入力に基づき、リクトファインフローと RAG モジュールを活用して、二人間の協調的なインタラクティブおよびリアクティブな 3D 運動を高速かつ高精度に生成する統合フレームワーク「DualFlow」を提案し、その性能を多角的なベンチマークで実証したものである。

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

本論文では、血流力学のナビエ - ストークス方程式に基づいて脈動信号が二次動的システムに従うことを理論的に示し、これを基にゼロ演算量の軸交換モジュール、適応的空間フィルタ、ゲート付き TCN を組み合わせた軽量かつ高精度な物理駆動型 rPPG モデル「PHASE-Net」を提案し、頭部運動や照明変化に対するロバスト性と実用性を両立させています。

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

本論文は、眼科における視力障害疾患の診断支援とバイアス評価を目的として、12 の疾患と 5 つの画像モダリティにまたがる大規模なマルチモーダルデータセット「LMOD+」と、24 種類の最先端マルチモーダル大規模言語モデルの包括的ベンチマークを提案し、その性能限界と将来の可能性を明らかにしたものである。

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

本論文は、自己回帰型動画拡散モデルにおいて、生成された動画の任意のフレームを任意の物体に対してインタラクティブにドラッグ操作し、潜空間のドリフトや文脈干渉を抑制するトレーニング不要な手法「DragStream」を提案し、ストリーミング型のドラッグ指向動画操作タスク「REVEL」を実現するものである。

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

本論文は、強化学習と自己ロールアウト機構を組み合わせることで、リアルタイムかつ高精度な運動制御を実現し、既存の拡散モデルに比べて大幅な遅延低減と高画質を両立する初の RL 強化型少量ステップ自己回帰動画生成モデル「AR-Drag」を提案するものである。

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

本論文は、2018 年から 2025 年にかけて脳 MRI 画像の異常検出に応用された教師なし深生成モデルに関する 33 件の研究を体系的にレビューし、その潜在的可能性と方法論的な課題、そして今後の臨床的有用性を高めるための新たな方向性を明らかにしたものである。

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本論文は、音声と視覚の連続学習におけるモダリティの干渉を解決するため、マルチモーダルなサンプル選択と衝突に基づくリハーサル機構を組み合わせた新しいフレームワークを提案し、音声誘導型の連続オーディオ・ビジュアルセグメンテーションタスクにおける性能向上を実証しています。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

本論文は、自律走行の知覚タスクにおける合成データの有用性を検証し、3D 資産を駆使して多視点のコーナーケースを大規模に生成する新たなフレームワーク「Dream4Drive」と大規模 3D アセットデータセット「DriveObj3D」を提案し、下流の知覚モデルの性能向上を実証しています。

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

この論文は、多様なデータ密度に対する堅牢なコンテキストモデルと、分布外データへの効率的な適応を可能にするインスタンス適応型微調整戦略を導入した汎用点雲圧縮フレームワーク「AnyPcc」を提案し、15 の多様なデータセットにおいて新たな最先端性能を達成したことを示しています。

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

本論文は、自己教師あり学習に基づくビジョン基盤モデル DINOv2 を用いたトランスフォーマーフレームワーク「CountFormer」を提案し、例示なしの物体数え上げにおいて視覚的反復や構造の学習がどのように改善されるかを検証し、FSC-147 ベンチマークで競争力のある性能を示すとともに、表現の質が数え上げ精度に重要であることを明らかにしています。

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

本論文は、線形ブレンドや既存の生成手法では困難であった多様なクリップ間の滑らかな遷移を実現するため、アートのワークフローから着想を得て構造情報と生成合成を組み合わせ、微調整なしに高品質な中間フレームを生成するゼロショット手法「SAGE」を提案し、定量的・定性的な評価で既存手法を上回る性能を示したものです。

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

この論文は、拡散モデルによる画像の「再構成時の挙動(拡散スナップバック)」を分析することで、人間の目や従来の手法では判別が困難な高品質な AI 生成画像を、圧縮やノイズなどの歪みにも強く、極めて高い精度(AUROC 0.993)で検出する新しいフォレンジック手法を提案しています。

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

本論文は、人間の研究者の基礎論文を基に仮説立案から実験、論文執筆までを自律的に行う「Jr. AI Scientist」を開発し、その科学的貢献と評価結果を報告するとともに、現在の AI 科学者システムが抱えるリスクや限界を包括的に分析したものである。

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

本論文は、ガウススプラッティングによる3D 物体再構成の知覚品質評価課題に対し、人間の視覚行動を模倣した多距離主観評価手法と、入力データの複数の不確実性を考慮して構築された新規データセット「MUGSQA」ならびにベンチマークを提案するものである。

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

本論文は、視覚的欠損をテキストや視覚的埋め込みなどのマルチモーダルガイダンスを用いて再構築し、注意空間の一貫性を保証することで、遮蔽下での物体カウント精度を飛躍的に向上させる新しいフレームワーク「CountOCC」を提案し、複数のデータセットで最先端の結果を達成したことを報告しています。

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

この論文は、離散化されたグリッド表現の限界を克服し、連続的な物体境界座標を用いてメトリックに基づく空間レイアウトを再構築するフレームワーク「Video2Layout」を提案し、これにより空間推論タスクの精度を向上させることを示しています。

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs