cs.CV 件の論文 | Gist.Science

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

FedEU は、証拠に基づく不確実性推定とクライアント固有の特徴埋め込みを活用して、分散環境におけるリモートセンシング画像セグメンテーションの信頼性と適応性を向上させる新しい連合学習フレームワークを提案するものです。

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

この論文は、拡散モデルを用いたデータセット蒸留において、従来の後段のクロスアテンションに依存する手法が視覚的特徴を弱体化させる問題を解決するため、エンコーダと生成バックボーンの遷移段階でテキストと視覚の埋め込みを早期に融合する「EVLF」手法を提案し、セマンティックに忠実かつ視覚的に整合性の高い合成データを生成して下流タスクの精度向上を実現することを示しています。

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

この論文は、LiDAR とカメラのデータ破損に対して頑健な 3D 物体検出を実現するため、マルチモーダル BEV 特徴をモダリティ不変部分とモダリティ固有部分に分解・再結合し、破損タイプに応じた 3 つのエキスパートを適応的に融合する「Multi-Modal Decouple and Recouple Network」を提案し、nuScenes ベンチマークで清潔なデータおよびあらゆる種類の破損データにおいて既存モデルを上回る性能を達成したことを報告するものです。

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

本論文は、実世界の劣化（モーションブラーや低照度）に直面したスナップショット圧縮イメージングにおいて、単なる「再構成」から「復元」へと目標を転換し、RobustSCI およびその拡張版 RobustSCI-C を提案することで、劣化した測定値から本来の鮮明なシーンを回復する新たな手法とベンチマークを確立したものである。

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

この論文は、LiDAR からカメラモデルへ深度情報を転送する際に深度と無関係なノイズの影響を軽減し、実世界の摂動に対する頑健性を高めるため、カメラから物体までの「光線」に沿って深度知識を蒸留する新しい手法「RayD3D」を提案し、複数の BEV 検出モデルにおいて既存の手法を上回る性能を達成したことを報告しています。

Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

この論文は、ドキュメント理解におけるレイアウト認知と証拠に基づく段階的推論を統合し、グローバルなレイアウト事前知識と視覚的意味連鎖（VSC）を用いて推論過程を構造化・強化する新しいフレームワーク「DocCogito」を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

本論文は、発掘資料の継続的な追加に伴う新たな文字種の学習と多様な書風への対応という課題を解決するため、埋め込み辞書マッチングとスクリプト条件付き注入モジュールを備えた「AMR-CCR」フレームワークと、それを評価するための新しいベンチマーク「EvoCON」を提案するものです。

Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue2026-03-10💻 cs

High-Fidelity Medical Shape Generation via Skeletal Latent Diffusion

本論文は、解剖学的構造の複雑性や多様性に対処するため、微分可能な骨格化モジュールを備えた形状オートエンコーダと潜在空間拡散モデルを組み合わせた高忠実度かつ効率的な医療形状生成フレームワークを提案し、大規模な MedSDF データセットを用いた実験で既存手法を上回る性能を達成したことを示しています。

Guoqing Zhang, Jingyun Yang, Siqi Chen, Anping Zhang, Yang Li2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

本論文は、Tweedie の公式を用いて「Drifting モデル」がガウス平滑化分布におけるスコアマッチングの原理と厳密に等価であることを示し、拡散モデルや DMD との理論的関係を明らかにするとともに、ラプラス核に対する誤差評価も提供しています。

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

本論文は、AIGC 技術の進展に伴うディープフェイクの検出課題に対し、人間の鑑定プロセスを模倣した推論データセットの構築、偽造潜在空間分布の捕捉、および強化学習を用いた自己進化戦略を統合することで、高精度かつ信頼性の高い説明付きディープフェイク顔画像識別を実現する「EvolveReason」を提案するものです。

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

本論文は、フリーハンドスケッチをラスター画像やストローク系列ではなく構造化グラフとして直接モデル化する「SketchGraphNet」を提案し、344 万点のスケッチを含む大規模ベンチマーク「SketchGraph」上で、補助的な位置・構造エンコーディングを不要としながら、メモリ効率と精度を両立した認識を実現したことを報告しています。

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

本論文は、X 線 C アームシステムを用いたガイドワイヤやカテーテルなどの任意形状の連続体ロボットの 3 次元再構成において、画像セグメンテーションと幾何学的制約を組み合わせた新しいフレームワーク「ACCURATE」を提案し、1.0mm 未満の平均絶対誤差で高精度な再構成を実現することを示しています。

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

この論文は、単眼 UAV 画像から小車両などのセマンティックなアンカーを用いて絶対メトリクススケールを復元し、これを物理的制約として衛星画像のスケール適応型切り出しに適用することで、実世界のスケール曖昧性下における UAV から衛星へのクロスビュー地理定位の頑健性を大幅に向上させる幾何学的枠組みを提案しています。

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

この論文は、長編のテキストと画像を交互に生成する際に視覚履歴の蓄積が品質劣化を招くという課題を特定し、モデル内部の関連性に基づいて不要な視覚情報を動的に排除する「UniLongGen」という推論戦略を提案することで、長期生成の安定性と忠実度を大幅に向上させることを示しています。

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

この論文は、単一の参照画像から高品質な手書き画像を生成する拡散モデル「CONSTANT」を提案し、スタイルを離散トークンとしてモデル化するスタイル感知量子化、トークンの意味的分離を促す対照的学習、および潜在空間におけるマルチスケールパッチの整合性確保により、既存手法を上回る多言語対応のスタイル適応性と画像品質を実現したことを述べています。

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

← 前へ次へ →

cs.CV