cs.CV 件の論文 | Gist.Science

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

本論文は、スパースおよび冗長な特徴量が忘却を引き起こす問題を情報ボトルネックの観点から分析し、Mamba デコーダと情報ボトルネック融合モジュールを組み合わせてノイズを除去する新たなフレームワーク「IB-IUMAD」を提案することで、カテゴリーの追加学習における多モーダル異常検知の性能向上と忘却の抑制を実現するものである。

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

透明物体のインスタンス分割における境界の曖昧さや低コントラストといった課題に対し、周波数領域の詳細強化モジュールと多スケール空間精製ストリームを統合した新たなフレームワーク「SEP-YOLO」を提案し、Trans10K データセットの注釈整備と併せて SOTA 性能を達成したことを要約します。

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

本論文は、大規模なファッションデータセット「FashionX」を構築し、これに基づいて多様なファッションタスクを統一的な対話パラダイムで統合する汎用ビジョン・ランゲージフレームワーク「OmniFashion」を提案し、多様なタスクでの高い精度と汎化性能を実証しています。

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

本論文は、マルチモーダル大規模言語モデルの真のクロスモーダル推論能力を評価し、単一モダリティで解ける低品質な問題によるバイアスを排除して効率的かつ信頼性の高いベンチマークを構築するための新しい枠組み「M3IRT」を提案するものである。

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Discriminative（識別）とGenerative（生成）の両方の目的を単一モデルで統合し、Masking Warmup と Semantically Aligned Decoding といった新技術によって、視覚理解とテキストから画像への生成の両方で優れた性能を達成する「DREAM」というフレームワークを提案する論文です。

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

本論文は、メタ認知に基づくデータ構築、段階的専門化トレーニング、仮想強化学習、そして包括的なベンチマーク評価を通じて、理解・思考・計画・創造の能力を統合したネイティブな視覚生成エージェントモデル「VisionCreator」を提案し、大規模なクローズドソースモデルを上回る性能を実証したものである。

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

本論文は、スパースビュー CT 再構成において、観測残差を用いた残差条件付き自己ガイドサンプリングを導入することで、誤差蓄積やサンプリング不安定性を克服し、既存の手法を上回る精度と安定性を達成する「ReCo-Diff」と呼ばれる新しい拡散モデルフレームワークを提案しています。

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

FiDeSR は、訓練時の詳細認識重み付け戦略と推論時の適応型エンハンサー、そして残差ノイズ精製を組み合わせたワンステップ拡散モデルであり、既存の手法よりも高忠実度かつ詳細を保持した実世界画像の超解像を実現します。

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

本論文は、CARLA シミュレーションプラットフォーム上で構築された大規模なマルチエージェント対話データセットと、4 視点動画の空間的結合、およびクロスエージェント注意機構を導入した事前学習済み動画モデルを組み合わせることで、複数のエージェントが共有する世界の一貫したモデリングと 49 フレームの大規模な動画生成を実現する「ShareVerse」というフレームワークを提案しています。

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

本研究は、流産性絨毛腫（GTD）の病理診断の効率と精度を大幅に向上させるため、視覚言語深層学習モデル「GTDoctor」およびその臨床システム「GTDiagnosis」を開発し、病変検出の高精度化、診断時間の短縮、そして診断の信頼性向上を実証したものである。

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

本論文は、異なる劣化タイプとその微細な変動に対して適応的に専門家の組み合わせを選択する二重レベルの混合専門家（MoE）アーキテクチャを事前学習済み拡散トランスフォーマーに統合することで、単一モデルによる高品質なオールインワン画像復元を実現する「MiM-DiT」を提案しています。

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

この論文は、画像生成における空間的曖昧さや重なりなどの課題を解決するため、入力プロンプトから「描き方（How）」の視覚的制約を導き出し、それに基づいて「描く内容（What）」を生成する制約推論フレームワーク「CoR-Painter」を提案し、最先端の性能を達成したことを報告しています。

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

本論文は、固定された因子相互作用の枠組みを超えて、教師なしで最適なテンソル分解を動的に選択・活性化し、単一の分解から混合分解までを柔軟に表現できる「TenExp」という混合エキスパートに基づくテンソル分解構造探索フレームワークを提案し、その近似誤差 bound を理論的に示すとともに、合成および実データによる広範な実験で既存手法を上回る性能を実証したものである。

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

本論文は、異なる視点からの画像間の地理的位置推定を目的とし、空間領域と周波数領域の相補的な表現を活用した軽量かつ高精度な「SFDE」という新しいネットワークを提案し、既存手法を上回る性能を達成したことを示しています。

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

この論文は、リモートセンシング分野におけるマルチモーダル大規模言語モデルの幻覚問題を解決するため、詳細な診断用ベンチマーク「RSHBench」を提案し、学習不要で推論時に内在する注意機構を活用して局所推論を導く「RADAR」という手法を開発し、その有効性を実証したものです。

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

本論文は、現実世界のクライアント構造を考慮せず既存の LoRA 法が抱える課題を解決するため、グローバル・サブグループ・クライアント固有の知識をそれぞれ捉える階層的アダプターと、部分空間類似性に基づく適応的クラスタリングを導入した「HiLoRA」という新しい階層型 LoRA 枠組みを提案し、個人化と汎化の両面で性能向上を実現するものです。

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

この論文は、計算病理学、放射線学、自然言語処理の分野にまたがる医療基盤モデルの汎用性を評価するために、標準化されたプロトコルと「UNICORN スコア」を導入した統合ベンチマーク「UNICORN」を提案し、そのデータセットと評価プラットフォームを公開していることを述べています。

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

本論文は、野外で撮影された屋外シーンの再照明を可能にするため、前景と空を分離し物理的レンダリングと 3D ガウシアンスプラッティングを組み合わせる新しい手法「R3GW」を提案し、任意の照明条件下でのフォトリアリスティックな新規視点合成と、空と前景の境界におけるレンダリング品質の向上を実現しています。

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

本論文は、大規模な対データが不要な新しい動画編集フレームワーク「NOVA」を提案し、ユーザーが編集したキーフレームによるセマンティックな制御と、元の動画からの密な運動・テクスチャ情報の統合、および人工的に劣化した動画を用いた学習戦略により、高忠実度かつ時間的に一貫した動画編集を実現することを示しています。

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

本論文は、古代ギリシャの批判的編集における複雑な構造を認識するために大規模合成データと実スキャンベンチマークを構築し、視覚言語モデル（VLM）の性能を評価した結果、ゼロショットでは既存ソフトに劣るものの Qwen3VL-8B が実スキャンで 1.0% の文字誤り率を達成し、その可能性と課題を明らかにしたものである。

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

← 前へ次へ →