Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

本論文は、火星の地形データに存在する欠損部分を補完するために、HiRISE 衛星画像から作成されたデータセットを用いて学習した無条件拡散モデルを提案し、従来の補間手法と比較して再構成精度と知覚的類似性が大幅に向上することを示しています。

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

本論文は、CLAHE と改良ベン・グラハム法を組み合わせた前処理、DenseNet121 エンコーダと Self-ONN デコーダを備えた UNet によるセグメンテーション、そして輪郭補正モジュールという 3 段階の深層学習パイプライン「CASR-Net」を提案し、X 線冠動脈造影画像における病変血管の自動分割精度を大幅に向上させたことを報告しています。

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

本論文は、任意の RGB 画像やテキスト記述から、MCTS 探索と幾何学的最適化を組み合わせることで、自由度の高い可動部品を持つ物体の運動学構造と関節パラメータを自動的に合成するフレームワーク「Kinematify」を提案し、既存手法の拡張性を克服して物理的に整合性のあるモデル生成を実現するものです。

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

本論文は、物体検出タスクにおいてモデルの予測品質に基づいてデータセット全体の平均精度(AP)への限界貢献度を推定し、学習中に有益なサンプルを動的に選択するオンラインデータキュレーション手法「DetGain」を提案し、COCO データセットでの実験により精度向上と低品質データに対する頑健性を実証しています。

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

本論文は、ビデオからオーディオを生成する際に生じる目的の絡み合い問題を解決し、人間の評価と整合性を持たせるため、4 つの知覚次元に対応する分解された思考連鎖と多次元報酬を統合した強化学習フレームワーク「PrismAudio」を提案し、高速化手法「Fast-GRPO」と包括的なベンチマーク「AudioCanvas」を用いて最先端の性能を実証するものである。

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

本論文は、従来の VAR モデルが抱える計算コストとメモリ使用量の課題を解決するため、過去のスケール情報をコンパクトな履歴ベクトルに圧縮する「マルコフ的スケール予測」を導入し、画像生成の精度向上と大幅な効率化を両立させた新モデル「Markov-VAR」を提案するものである。

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

本論文は、複雑な環境における視覚的異常検出において不確実性を定量化し、推論連鎖や自己反省、MLLM アンサンブルなどの品質保証技術を統合した新しいフレームワーク「ALARM」を提案し、実世界データによる評価でその優れた性能と汎用性を示しています。

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Value Gradient Guidance for Flow Matching Alignment

本論文は、最適制御理論に基づき、事前学習済みフローマッチングモデルの微調整において、価値関数の勾配場と速度場の最適差分を一致させる「VGG-Flow」という手法を提案し、限られた計算資源で効率的かつ事前分布を保持した人間嗜好への整合を実現することを示しています。

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

本論文は、粗いマスクを精密なインスタンス領域に反復的に洗練させる粒度認識マスクリファイナと高品質なオーディオガイダンスを生成する自己フィードバック型オーディオエージェントを提案し、大規模データセットを構築することで、視覚的品質、条件追従性、および音声・映像の同期において最先端の手法を上回る「AVI-Edit」というオーディオ同期型動画インスタンス編集フレームワークを提示するものである。

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

本論文は、自律運転における知覚・予測・計画を単一のアーキテクチャで統合し、将来の軌道予測と条件付き未来画像生成を相互に強化することで、Bench2Drive ベンチマークにおいて従来手法を上回る性能を達成した「UniDrive-WM」という新しい世界モデルを提案するものである。

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

本論文は、医療画像解析における変形画像登録の課題を解決するため、局所・大域アテンション機構と特徴量分解を統合した新しい教師なしフレームワーク「LGANet++」を提案し、多様な公開データセットにおける最先端手法を上回る精度と汎用性を実証したものである。

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

本論文は、計算コストの削減と長尺動画における時間的一貫性の維持という課題を解決するため、セグメントごとの編集と境界補正、および構造のドリフト抑制を行う 2 つの中核モジュールを備えた、学習不要の動画編集フレームワーク「MLV-Edit」を提案するものです。

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

本論文は、長期動画理解における従来の均等サンプリングの限界を克服し、強固な局所化能力とオンデマンドのクリッピング、不正確な局所化の修正を可能にする統合型エージェント思考フレームワーク「VideoTemp-o3」を提案し、教師あり微調整におけるユニファイドなマスキング機構や強化学習のための専用報酬、高品質なデータ構築パイプラインを通じて、長期動画理解とグラウンディングの両方で卓越した性能を達成することを示しています。

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

本論文は、小児手首の X 線画像における骨折パターンの検索精度を向上させるため、放射線報告書と骨領域の特定を活用し、手動アノテーションなしで粗い検索から領域特異的な再ランク付けを行う「WristMIR」という新しいフレームワークを提案し、臨床的関連性と診断精度の両面で既存手法を上回る性能を実証したものである。

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs