cs.CV 件の論文 | Gist.Science

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本論文は、モデル量子化とアテンション疎化を統合し、マルチスケールな注目蒸留と第二次数疎アテンション再パラメトリゼーションを導入することで、HunyuanVideo-13B において既存の量子化手法を大幅に上回る画質を維持しつつ、ストレージを 3.68 倍、推論速度を 1.88 倍に改善する「QuantSparse」という動画生成トランスフォーマーの圧縮フレームワークを提案しています。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

本論文は、テキスト、音楽、先行モーションなど多様な入力に基づき、リクトファインフローと RAG モジュールを活用して、二人間の協調的なインタラクティブおよびリアクティブな 3D 運動を高速かつ高精度に生成する統合フレームワーク「DualFlow」を提案し、その性能を多角的なベンチマークで実証したものである。

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

本論文では、血流力学のナビエ - ストークス方程式に基づいて脈動信号が二次動的システムに従うことを理論的に示し、これを基にゼロ演算量の軸交換モジュール、適応的空間フィルタ、ゲート付き TCN を組み合わせた軽量かつ高精度な物理駆動型 rPPG モデル「PHASE-Net」を提案し、頭部運動や照明変化に対するロバスト性と実用性を両立させています。

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

本論文は、眼科における視力障害疾患の診断支援とバイアス評価を目的として、12 の疾患と 5 つの画像モダリティにまたがる大規模なマルチモーダルデータセット「LMOD+」と、24 種類の最先端マルチモーダル大規模言語モデルの包括的ベンチマークを提案し、その性能限界と将来の可能性を明らかにしたものである。

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

← 前へ次へ →

cs.CV

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Real-Time Motion-Controllable Autoregressive Video Diffusion

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Counting Through Occlusion: Framework for Open World Amodal Counting

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning