AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

本論文は、視覚的自己回帰モデルの局所性バイアスと残差学習の限界を克服し、空間的整合性を強化する「SCA」と階層的整合性制約「HCC」を導入した超解像フレームワーク「AlignVAR」を提案し、既存の拡散モデルに比べて推論速度が 10 倍以上、パラメータ数が約半分でありながら、高い構造的整合性と知覚的忠実度を実現することを示しています。

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

本論文は、外部の報酬モデルや注釈データに依存せず、モデル自身がノイズ復元能力から得られる「自己信頼度」を報酬信号として活用するポストトレーニング手法「SOLACE」を提案し、これによりテキストから画像の生成における構成力、文字描画、テキストとの整合性を向上させるとともに、外部報酬との組み合わせで報酬ハッキングを軽減できることを示しています。

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

本論文は、MoGe-2 からの高精度深度情報を活用した深度誘導ビュー変換と、空間的セマンティックなばらつきに対応する領域誘導エキスパート変換を組み合わせることで、自律走行における 3D 占有予測の幾何学的整合性とセマンティック学習を向上させる「Dr.Occ」フレームワークを提案し、Occ3D--nuScenes ベンチマークで BEVDet4D を大幅に上回る性能を達成したことを報告しています。

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

本論文は、画像生成モデルを活用したスケーラブルなデータ生成パイプラインと、学習可能クエリと潜在視覚特徴を統合したアーキテクチャ「Kiwi-Edit」を提案し、大規模データセット「RefVIE」と評価ベンチマーク「RefVIE-Bench」を構築することで、指示と参照画像に基づく高精度な動画編集を実現する新たな最先端技術を確立したものである。

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

本論文は、線形時間計算量で長期依存関係を保持しつつ、ゲート化差分線形注意機構(GDLA)を用いてアテンションの拡散や不安定性を克服し、医療画像セグメンテーションにおいて高精度かつ効率的な推論を実現するデコーダ中心のトランスフォーマー「PVT-GDLA」を提案するものである。

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

本論文は、事前学習済みの拡散モデルを活用し、画像経路とテキスト経路を統合することで、複数の前景オブジェクトに対して幾何学的・位置的に整合性の取れた物理的に妥当な影を生成する「MultiShadow」という手法を提案し、単一・複数オブジェクト両方の設定で最先端の性能を達成することを示しています。

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

本論文は、希少な対データに依存せず超低磁場 MRI の画質を向上させるため、拡散モデルによる分布整合と解剖学的構造保存正則化を組み合わせた、多段階改良型非対照ニューラルシュレーディンガーブリッジ手法を提案し、現実性と構造的忠実性の両立を実現したことを報告しています。

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

本論文は、未整列画像からピクセルアライメントに依存しないグローバルなシーン表現を学習し、可視・不可視領域を含む完全な物理的に妥当な 3 点群を生成する新しいアモダル 3 次元復元手法「NOVA3R」を提案し、既存の最良手法を上回る精度と完全性を達成したことを示しています。

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

この論文は、脳小血管病変の重要なマーカーである拡大血管周囲腔とラクナ梗塞の放射学的類似性による検出の難しさを解決するため、モルフォロジー分離アーキテクチャと混合教師学習、解剖学的推論較正を組み合わせた統合フレームワークを提案し、VALDO 2021 および EPAD コホートデータで最先端の性能を実証したものである。

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

本論文は、3D CNN、3D 人体ポーズ、および物体検出情報をクロスアテンション機構で統合するマルチモーダル深層学習アプローチを提案し、高齢者の見守り支援システム(AAL)における日常生活動作認識の精度向上と、高齢者の安全・自立の促進に貢献するものである。

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

この論文は、圧縮イメージングにおける演算子不整合が深層学習手法の性能を大幅に低下させることを初めて包括的に検証し、演算子条件付きアーキテクチャや盲推定キャリブレーションの重要性を明らかにした「InverseNet」という新しいベンチマークを提案するものです。

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

本論文は、So2Sat LCZ42 データセットを用いて、CNN ベースの深層学習モデルにおけるマルチモーダルリモートセンシングデータの融合戦略(ハイブリッド融合、アテンション機構、マルチスケール処理、重み付き決定レベル融合)とデータ・ラベルのグループ化手法を分析し、ハイブリッド融合とグループ化の組み合わせが全体的な精度を 76.6% に向上させ、過小表現クラスの予測精度改善に特に有効であることを示しています。

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs