cs.CV 件の論文 | Gist.Science

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

本研究は、流産性絨毛腫（GTD）の病理診断の効率と精度を大幅に向上させるため、視覚言語深層学習モデル「GTDoctor」およびその臨床システム「GTDiagnosis」を開発し、病変検出の高精度化、診断時間の短縮、そして診断の信頼性向上を実証したものである。

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

本論文は、異なる劣化タイプとその微細な変動に対して適応的に専門家の組み合わせを選択する二重レベルの混合専門家（MoE）アーキテクチャを事前学習済み拡散トランスフォーマーに統合することで、単一モデルによる高品質なオールインワン画像復元を実現する「MiM-DiT」を提案しています。

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

この論文は、画像生成における空間的曖昧さや重なりなどの課題を解決するため、入力プロンプトから「描き方（How）」の視覚的制約を導き出し、それに基づいて「描く内容（What）」を生成する制約推論フレームワーク「CoR-Painter」を提案し、最先端の性能を達成したことを報告しています。

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

本論文は、固定された因子相互作用の枠組みを超えて、教師なしで最適なテンソル分解を動的に選択・活性化し、単一の分解から混合分解までを柔軟に表現できる「TenExp」という混合エキスパートに基づくテンソル分解構造探索フレームワークを提案し、その近似誤差 bound を理論的に示すとともに、合成および実データによる広範な実験で既存手法を上回る性能を実証したものである。

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

本論文は、異なる視点からの画像間の地理的位置推定を目的とし、空間領域と周波数領域の相補的な表現を活用した軽量かつ高精度な「SFDE」という新しいネットワークを提案し、既存手法を上回る性能を達成したことを示しています。

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

この論文は、リモートセンシング分野におけるマルチモーダル大規模言語モデルの幻覚問題を解決するため、詳細な診断用ベンチマーク「RSHBench」を提案し、学習不要で推論時に内在する注意機構を活用して局所推論を導く「RADAR」という手法を開発し、その有効性を実証したものです。

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

本論文は、現実世界のクライアント構造を考慮せず既存の LoRA 法が抱える課題を解決するため、グローバル・サブグループ・クライアント固有の知識をそれぞれ捉える階層的アダプターと、部分空間類似性に基づく適応的クラスタリングを導入した「HiLoRA」という新しい階層型 LoRA 枠組みを提案し、個人化と汎化の両面で性能向上を実現するものです。

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

この論文は、計算病理学、放射線学、自然言語処理の分野にまたがる医療基盤モデルの汎用性を評価するために、標準化されたプロトコルと「UNICORN スコア」を導入した統合ベンチマーク「UNICORN」を提案し、そのデータセットと評価プラットフォームを公開していることを述べています。

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

本論文は、野外で撮影された屋外シーンの再照明を可能にするため、前景と空を分離し物理的レンダリングと 3D ガウシアンスプラッティングを組み合わせる新しい手法「R3GW」を提案し、任意の照明条件下でのフォトリアリスティックな新規視点合成と、空と前景の境界におけるレンダリング品質の向上を実現しています。

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

本論文は、大規模な対データが不要な新しい動画編集フレームワーク「NOVA」を提案し、ユーザーが編集したキーフレームによるセマンティックな制御と、元の動画からの密な運動・テクスチャ情報の統合、および人工的に劣化した動画を用いた学習戦略により、高忠実度かつ時間的に一貫した動画編集を実現することを示しています。

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

本論文は、古代ギリシャの批判的編集における複雑な構造を認識するために大規模合成データと実スキャンベンチマークを構築し、視覚言語モデル（VLM）の性能を評価した結果、ゼロショットでは既存ソフトに劣るものの Qwen3VL-8B が実スキャンで 1.0% の文字誤り率を達成し、その可能性と課題を明らかにしたものである。

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

本論文は、デジタルインクを固定語彙のトークンに変換する「ScribeTokens」を提案し、生成タスクでのベクトル表現を大幅に上回る性能と、自己教師あり学習による認識タスクでの最優秀な結果を実現したことを示しています。

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

本論文は、スケーリング不変性とスケーリング共変性を数学的に保証し、既知のスケールで訓練されたモデルが未知のスケールに対しても高い汎化性能を示すことを実証する「スケーリング不変ガウス微分残差ネットワーク（GaussDerResNets）」を提案し、STL-10、Fashion-MNIST、CIFAR-10 のスケーリング版を用いた実験でその有効性を確認したものである。

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

大規模視覚言語モデル（LVLM）は、ノードや構造的特徴は視覚エンコーダ内で早期に線形に表現される一方で、エッジ情報は言語モデルのテキストトークン段階まで遅れて現れるため、関係性の理解に課題を抱えていることを、合成図データセットを用いた内部表現の探査により明らかにしました。

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

本論文は、写真計測残差、セマンティック事前知識、幾何学的事前知識を融合したマルチモーダル事前情報に基づく重要度サンプリングを中核とした階層的 3D ガウススプラッティング手法を提案し、これにより疎なビューからの新規視点合成において過学習やノイズを抑制しつつ、DTU データセットで最大 0.3dB の PSNR 向上を実現する SOTA 性能を達成したことを示しています。

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark は、大規模なメッセージキーの保存を不要とする盲抽出機能と、時系列擾乱に対する頑健性を向上させるモジュールを備えた、拡散モデルによる動画生成向けのスケーラブルかつ歪みのない透かし埋め込みフレームワークを提案するものです。

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

本論文は、ビデオ生成におけるメモリおよび計算コストの削減と画質の維持を両立させるため、ブロックごとの最適な量子化形式を効率的に選択し、残差誤差の再量子化や意味的相関に基づくトークン共有といった手法を統合した「SemanticDialect」を提案し、Open-Sora 2.0 において FP16 に匹敵する画質を達成したことを示しています。

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

この論文は、生体認証画像のプライバシーを保護しつつ偽造検出精度を維持するため、自然な画像に顔を隠すステガノグラフィ技術と、低周波成分の干渉を抑制し隠れた特徴を強調する独自のアーキテクチャを組み合わせた「StegaFFD」という新しいフレームワークを提案しています。

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

LLandMark は、クエリ解析、ランドマーク推論、マルチモーダル検索、回答合成の 4 段階で専門エージェントが協調し、特にベトナムの文化的・空間的ランドマークの検出や OCR 精度向上に特化したモジュール型マルチエージェントフレームワークとして、複雑なマルチモーダル動画検索を可能にするものです。

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

本論文は、高品質な 3D 人データセットで微調整されたマルチビュー拡散モデルと、カメラ姿勢の共同最適化、および深度に基づく顔歪み補正モジュールを組み合わせることで、単一画像から高忠実度かつ自由視点の 3D 人間再構築を実現する「MVD-HuGaS」を提案し、Thuman2.0 や 2K2K データセットにおいて最先端の性能を達成したことを報告しています。

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

← 前へ次へ →