Decoder-Free Distillation for Quantized Image Restoration

この論文は、エッジデバイス向けの画像復元タスクにおいて、FP32 自己蒸留、デコーダフリー蒸留、学習可能重み付け、および軽量な劣化ゲート機構を導入することで、量子化ノイズや容量の不一致といった課題を解決し、Int8 モデルで FP32 パフォーマンスの 96.5% を維持しつつ高速推論と高精度な物体検出を実現する「QDR」というフレームワークを提案しています。

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho LeeWed, 11 Ma💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

本論文は、リモートセンシング分野における合成データの解釈可能な生成と評価を可能にするビジョン・言語統合フレームワークを提案し、実画像と合成画像、セグメンテーションマップ、説明文を含む大規模データセット「ARAS400k」を構築することで、合成データを用いた拡張学習が実データのみを用いた学習よりも高い性能を発揮することを示しました。

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

本論文は、未 poses の動画から幾何学と姿勢を最適化し、視覚基盤モデルから高次元のセマンティック特徴を 3D ガウスに蒸留する効率的なパイプライン「X-GS-Perceiver」と、それを活用して物体検出やゼロショットキャプション生成などの下流タスクを可能にする「X-GS-Thinker」を含む、3D ガウススプラッティングとマルチモーダルモデルを統合する拡張可能なオープンフレームワーク「X-GS」を提案し、リアルタイムなセマンティック強化 SLAM を実現するものである。

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

本論文は、低テクスチャ環境や急激な照明変化下でもロバストな推定を可能にするため、線分に対して専用の学習不要な記述子を導入し、エントロピー正則化付き最適輸送を用いた対応付けと信頼度に基づく適応重み付けを備えた新しいステレオ視覚慣性オドメトリシステム「OTPL-VIO」を提案するものである。

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

この論文は、動画編集における背景の整合性と前景の品質向上という課題に対し、拡散モデルの「ハルシネーション(幻覚)」を検知して動的にキー・バリューの融合比率と CFG スケールを調整する学習不要なフレームワーク「KV-Lock」を提案し、既存手法を上回る結果を示しています。

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

この論文は、風という不可視で時空間的に変化する力と複雑に変形する物体の相互作用を、物理情報に基づく微分可能なフレームワーク「DiffWind」を用いて動画から再構成・シミュレーションする手法を提案し、新しいデータセット「WD-Objects」も公開している。

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng CuiWed, 11 Ma💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

本論文は、3D ガウススプラッティングを用いた SLAM において、各スプラットの外観分散を明示的に学習し、単一パスのラスタライゼーションで信頼性の高い領域に焦点を当てた追跡とマッピングを実現する「VarSplat」という不確実性意識型のシステムを提案し、実世界および合成データセットにおいて既存手法を上回るロバスト性と精度を達成したことを報告しています。

Anh Thuan Tran, Jana KoseckaWed, 11 Ma💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

この論文は、PhoBERT や Vision Transformer などの事前学習済みトランスフォーマーを活用し、大規模な自動構築データセット「AutoViVQA」を提案するとともに、多言語環境における自動評価指標と人間の判断との整合性を検証するベトナム語の視覚的質問応答(VQA)研究について述べています。

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

この論文は、4D レーダーの低密度な点群データから高精度な自動運転知覚を実現するため、局所的な詳細特徴と大域的な文脈情報を双経路アーキテクチャで融合する「DRIFT」というモデルを提案し、物体検出や自由道路推定において既存手法を上回る性能を示したことを述べています。

Siqi Pei, Andras Palffy, Dariu M. GavrilaWed, 11 Ma💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

本論文は、手術動画の質問応答タスクにおいて言語的バイアスへの頑健性と時間的根拠の把握を両立させるため、低ランク適応(LoRA)の学習可能ブランチに軽量な時間的注意機構を組み込んだ新しいパラメータ効率的微調整手法「TemporalDoRA」を提案し、新たに作成したREAL-Colon-VQAデータセットなどを用いた実験でその有効性を実証しています。

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. HoqueWed, 11 Ma💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

本論文は、離散ウェーブレット変換を用いた周波数帯域分解と条件付き拡散モデルを組み合わせた「TriFusion-SR」という新しいフレームワークを提案し、MRI、CT、PET といった 3 種類の医療画像の融合と超解像を同時に処理することで、既存手法の限界を克服し、画質と診断精度を大幅に向上させることを示しています。

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu TimofteWed, 11 Ma💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

本論文は、3D ガウススプラッティングのデータ圧縮とストリーミング配信の課題を解決するため、オクトリー構造と相互情報量強化メカニズムを導入し、保存容量を 45 倍削減しながら視覚品質を 10% 以上向上させるプログレッシブ符号化方式「ProGS」を提案するものである。

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

本論文は、3D ガウススプラッティングの大容量データ問題に対処するため、複数ユーザーの行動を学習する協調的ビューポート予測と深層強化学習に基づくビットレート適応を組み合わせた、高画質かつ効率的な volumetric シーンストリーミングシステム「GSStream」を提案し、その有効性を検証したものである。

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

本論文は、拡散モデルにおける高忠実度動画生成の課題を解決するため、フレーム全体を行列として処理する「Matrix Attention」を導入し、大規模な動きの捕捉と効率的な計算を両立する新しいアーキテクチャ「FrameDiT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen TranWed, 11 Ma💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

この論文は、実世界の一人称視点動画から構築された新しいベンチマーク「EXPLORE-Bench」を提案し、マルチモーダル大規模言語モデルが長期的な物理的帰結を推論する能力に依然として大きな課題があることを示すとともに、段階的推論による性能向上の可能性と計算コストのトレードオフを分析しています。

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

本論文は、診断・計測・セグメンテーションの各タスクを専門とする複数のエージェントを動的に調整し、静止画解析から動画ストリームの構造化臨床レポート生成までを一貫して支援する、初めての包括的な胎児超音波画像・動画解析マルチエージェントシステム「FetalAgents」を提案し、その多施設外部評価における卓越した性能を実証しています。

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan TianWed, 11 Ma💻 cs

M2M^2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

この論文は、現実世界の自動運転において頻発するマルチカメラ入力の欠損に対処し、マルチビューマスク再構成と特徴量メモリモジュールを組み合わせることで、不完全な観測条件下でも堅牢な3Dセマンティックオキュパンシー予測を実現するフレームワーク「M2M^2-Occ」を提案し、nuScenes ベンチマークにおいて大幅な性能向上を実証したものである。

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

本論文は、連続環境における視覚言語ナビゲーション(VLN-CE)において、SFT の累積誤差や RFT のスパースな報酬という課題を解決するため、不完全な軌道から密な教師信号を抽出し、ステップごとの進捗評価と動的なバッチ処理を行う「ステップ認識型対照的アライメント(SACA)」を提案し、SOTA 性能を達成したことを示しています。

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs