cs.CV 件の論文 | Gist.Science

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

本論文は、視覚的自己回帰モデルの局所性バイアスと残差学習の限界を克服し、空間的整合性を強化する「SCA」と階層的整合性制約「HCC」を導入した超解像フレームワーク「AlignVAR」を提案し、既存の拡散モデルに比べて推論速度が 10 倍以上、パラメータ数が約半分でありながら、高い構造的整合性と知覚的忠実度を実現することを示しています。

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

本論文は、外部の報酬モデルや注釈データに依存せず、モデル自身がノイズ復元能力から得られる「自己信頼度」を報酬信号として活用するポストトレーニング手法「SOLACE」を提案し、これによりテキストから画像の生成における構成力、文字描画、テキストとの整合性を向上させるとともに、外部報酬との組み合わせで報酬ハッキングを軽減できることを示しています。

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

本論文は、MoGe-2 からの高精度深度情報を活用した深度誘導ビュー変換と、空間的セマンティックなばらつきに対応する領域誘導エキスパート変換を組み合わせることで、自律走行における 3D 占有予測の幾何学的整合性とセマンティック学習を向上させる「Dr.Occ」フレームワークを提案し、Occ3D--nuScenes ベンチマークで BEVDet4D を大幅に上回る性能を達成したことを報告しています。

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

本論文は、拡散 LLM やマルチモーダル LLM における動的なアクティベーションの分布を考慮し、重みとアクティベーションの変換を分離する新しい量子化フレームワーク「FreeAct」を提案し、既存手法を最大 5.3% 上回る性能向上を実現したことを示しています。

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

本論文は、画像生成モデルを活用したスケーラブルなデータ生成パイプラインと、学習可能クエリと潜在視覚特徴を統合したアーキテクチャ「Kiwi-Edit」を提案し、大規模データセット「RefVIE」と評価ベンチマーク「RefVIE-Bench」を構築することで、指示と参照画像に基づく高精度な動画編集を実現する新たな最先端技術を確立したものである。

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

本論文では、単眼動画の全ピクセルに対して世界座標系における効率的な密な 3 次元トラッキングを可能にする、VGGT 型の ViT を基盤とした新規フィードフォワードモデル「Track4World」を提案し、既存手法を上回る 2D/3D フロー推定および 3D 追跡性能を実証しています。

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

本論文は、線形時間計算量で長期依存関係を保持しつつ、ゲート化差分線形注意機構（GDLA）を用いてアテンションの拡散や不安定性を克服し、医療画像セグメンテーションにおいて高精度かつ効率的な推論を実現するデコーダ中心のトランスフォーマー「PVT-GDLA」を提案するものである。

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

本論文は、事前学習済みの拡散モデルを活用し、画像経路とテキスト経路を統合することで、複数の前景オブジェクトに対して幾何学的・位置的に整合性の取れた物理的に妥当な影を生成する「MultiShadow」という手法を提案し、単一・複数オブジェクト両方の設定で最先端の性能を達成することを示しています。

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

本論文では、複雑な座標変換や IoU 指標による検証の難しさを克服し、SSD や YOLO などのアンカーベース物体検出モデルのロバスト性を初めて正式に検証可能にする新しいフレームワーク「IoUCert」を提案しています。

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

本論文は、希少な対データに依存せず超低磁場 MRI の画質を向上させるため、拡散モデルによる分布整合と解剖学的構造保存正則化を組み合わせた、多段階改良型非対照ニューラルシュレーディンガーブリッジ手法を提案し、現実性と構造的忠実性の両立を実現したことを報告しています。

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

本論文は、生物物理学的な腫瘍成長モデルと生成モデルを統合し、患者固有の脳 MRI 画像からグリオーブラストーマの時間的進行と浸透を現実的に合成・可視化する「TumorFlow」フレームワークを提案するものである。

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

本論文は、未整列画像からピクセルアライメントに依存しないグローバルなシーン表現を学習し、可視・不可視領域を含む完全な物理的に妥当な 3 点群を生成する新しいアモダル 3 次元復元手法「NOVA3R」を提案し、既存の最良手法を上回る精度と完全性を達成したことを示しています。

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

この論文は、脳小血管病変の重要なマーカーである拡大血管周囲腔とラクナ梗塞の放射学的類似性による検出の難しさを解決するため、モルフォロジー分離アーキテクチャと混合教師学習、解剖学的推論較正を組み合わせた統合フレームワークを提案し、VALDO 2021 および EPAD コホートデータで最先端の性能を実証したものである。

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

本論文は、多視点動画から身体と形状に依存しない複数の衣類レイヤーを分解して表現する「Gaussian Wardrobe」を提案し、高忠実度な動的アバターの生成と、異なる人物間での衣類の自由な転送を可能にする仮想試着を実現するものです。

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

本研究は、言語による視覚特徴の再調整（Semantic Anchoring）が、犬とヒトの病理画像における種間・癌種間転移学習における埋め込み空間の崩壊を克服し、従来の視覚言語モデルの限界を超えた汎化性能を実現することを示しています。

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

本論文は、AI エージェントが過去の経験を体系的に蓄積・再利用し、タスク実行の効率と安全性を大幅に向上させるために、20 万を超えるスキルを管理・評価・接続する大規模インフラ「SkillNet」を提案し、その有効性を複数のベンチマークで実証したものである。

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

本論文は、3D CNN、3D 人体ポーズ、および物体検出情報をクロスアテンション機構で統合するマルチモーダル深層学習アプローチを提案し、高齢者の見守り支援システム（AAL）における日常生活動作認識の精度向上と、高齢者の安全・自立の促進に貢献するものである。

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

この論文は、圧縮イメージングにおける演算子不整合が深層学習手法の性能を大幅に低下させることを初めて包括的に検証し、演算子条件付きアーキテクチャや盲推定キャリブレーションの重要性を明らかにした「InverseNet」という新しいベンチマークを提案するものです。

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

本論文は、So2Sat LCZ42 データセットを用いて、CNN ベースの深層学習モデルにおけるマルチモーダルリモートセンシングデータの融合戦略（ハイブリッド融合、アテンション機構、マルチスケール処理、重み付き決定レベル融合）とデータ・ラベルのグループ化手法を分析し、ハイブリッド融合とグループ化の組み合わせが全体的な精度を 76.6% に向上させ、過小表現クラスの予測精度改善に特に有効であることを示しています。

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

← 前へ次へ →