cs.CV 件の論文 | Gist.Science

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

この論文は、視覚と聴覚の両方の感覚を統合した世界モデルの概念を初めて定義し、専用データセット「AVW-4k」と新しいモデル「AV-CDiT」を提案することで、マルチモーダルな未来予測と音声視覚ナビゲーションタスクの性能向上を実現するものです。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

VGGT や $\pi^3$ などの多視点 3D モデルが抱える計算コストの課題に対し、グローバル注意機構の役割を分析し、学習不要の 2 段階加速手法を提案することで、精度を維持しつつ最大 10 倍の推論高速化を実現する論文です。

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

この論文は、衛星画像における船舶検出の課題である極端なスケール差とアスペクト比に対処するため、検出ピラミッドレベルを P3-P5 から P2-P4 へシフトさせ、グループ正規化を用いた補助ブランチを統合した軽量かつ高精度な検出器「LiM-YOLO」を提案し、主要なベンチマークで最先端の性能を達成したことを報告しています。

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

← 前へ次へ →

cs.CV

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

AVGGT: Rethinking Global Attention for Accelerating VGGT

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Directional Textual Inversion for Personalized Text-to-Image Generation

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

WebAccessVL: Violation-Aware VLM for Web Accessibility

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Monocular Normal Estimation via Shading Sequence Estimation

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Multimodal Classification via Total Correlation Maximization

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics