cs.CV 件の論文 | Gist.Science

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

本論文は、デジタルインクを固定語彙のトークンに変換する「ScribeTokens」を提案し、生成タスクでのベクトル表現を大幅に上回る性能と、自己教師あり学習による認識タスクでの最優秀な結果を実現したことを示しています。

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

本論文は、スケーリング不変性とスケーリング共変性を数学的に保証し、既知のスケールで訓練されたモデルが未知のスケールに対しても高い汎化性能を示すことを実証する「スケーリング不変ガウス微分残差ネットワーク（GaussDerResNets）」を提案し、STL-10、Fashion-MNIST、CIFAR-10 のスケーリング版を用いた実験でその有効性を確認したものである。

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

大規模視覚言語モデル（LVLM）は、ノードや構造的特徴は視覚エンコーダ内で早期に線形に表現される一方で、エッジ情報は言語モデルのテキストトークン段階まで遅れて現れるため、関係性の理解に課題を抱えていることを、合成図データセットを用いた内部表現の探査により明らかにしました。

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

本論文は、写真計測残差、セマンティック事前知識、幾何学的事前知識を融合したマルチモーダル事前情報に基づく重要度サンプリングを中核とした階層的 3D ガウススプラッティング手法を提案し、これにより疎なビューからの新規視点合成において過学習やノイズを抑制しつつ、DTU データセットで最大 0.3dB の PSNR 向上を実現する SOTA 性能を達成したことを示しています。

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark は、大規模なメッセージキーの保存を不要とする盲抽出機能と、時系列擾乱に対する頑健性を向上させるモジュールを備えた、拡散モデルによる動画生成向けのスケーラブルかつ歪みのない透かし埋め込みフレームワークを提案するものです。

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

本論文は、ビデオ生成におけるメモリおよび計算コストの削減と画質の維持を両立させるため、ブロックごとの最適な量子化形式を効率的に選択し、残差誤差の再量子化や意味的相関に基づくトークン共有といった手法を統合した「SemanticDialect」を提案し、Open-Sora 2.0 において FP16 に匹敵する画質を達成したことを示しています。

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

この論文は、生体認証画像のプライバシーを保護しつつ偽造検出精度を維持するため、自然な画像に顔を隠すステガノグラフィ技術と、低周波成分の干渉を抑制し隠れた特徴を強調する独自のアーキテクチャを組み合わせた「StegaFFD」という新しいフレームワークを提案しています。

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

LLandMark は、クエリ解析、ランドマーク推論、マルチモーダル検索、回答合成の 4 段階で専門エージェントが協調し、特にベトナムの文化的・空間的ランドマークの検出や OCR 精度向上に特化したモジュール型マルチエージェントフレームワークとして、複雑なマルチモーダル動画検索を可能にするものです。

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

本論文は、高品質な 3D 人データセットで微調整されたマルチビュー拡散モデルと、カメラ姿勢の共同最適化、および深度に基づく顔歪み補正モジュールを組み合わせることで、単一画像から高忠実度かつ自由視点の 3D 人間再構築を実現する「MVD-HuGaS」を提案し、Thuman2.0 や 2K2K データセットにおいて最先端の性能を達成したことを報告しています。

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

本論文は、自然言語表現内の構成的な文脈推論を活用し、文レベルだけでなくフレーズレベルでの 3D 物体セグメンテーションを可能にする新たなタスク「3D-DRES」、対応する大規模データセット「DetailRefer」、および効率的なベースラインモデル「DetailBase」を提案し、既存の 3D 視覚言語タスクの性能向上にも寄与することを示しています。

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

本論文は、残差ベクトル量子化と軽量なバックボーンネットワークを組み合わせることで、低ビットレート環境での柔軟なプログレッシブ伝送と、MS-ILLM 比で 10 倍以上の高速なエンコード・デコードを実現しつつ、高品質な生成画像圧縮を可能にする「ProGIC」を提案するものである。

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

本論文は、2 次元形状の幾何学的特性を効率的に学習し、既存のセグメンテーションモデルに形状事前情報を組み込むことで性能を向上させる新たな深層学習アーキテクチャ「調和ベトルミシグネチャネットワーク（HBSN）」を提案し、その有効性を検証したものである。

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

本論文は、事前知識を必要とせず、ユーザーと物体の相互作用動画と初期 3D 走査データから、動的・静的な要素を分離する手法を用いて、可動部品の分解、関節の特定、および高品質なインタラクティブな 3D デジタル複製の再構築を実現する新しいフレームワーク「Articulation in Motion (AiM)」を提案するものである。

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

HDINO は、手動キュレーションされたデータやリソース集約的な特徴抽出に依存せず、ノイズサンプルを有効活用した二段階の学習戦略により、既存のオープンボキャブラリー検出器を少ないデータ量で上回る性能を実現する効率的な検出器です。

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

本研究は、14,049 例の腎生検から抽出された 100 万個以上の糸球体で学習したエンティティ中心の基盤モデル「GloPath」を提案し、52 種類のタスクにおいて最先端の手法を上回る病変評価性能と、組織レベルの形態と臨床指標の関連性を発見する能力を実証したものである。

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

TC-Padé は、有理関数に基づく軌道一貫性のある特徴量予測フレームワークを導入し、拡散モデルの低ステップ数領域における推論速度を大幅に向上させながら高品質な生成を維持する手法です。

Benlei Cui, Shaoxuan He, Bukun Huang + 8 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

この論文は、ラベル割合事前知識に基づく「プロポーション損失」を半教師あり学習の正則化項として初めて導入し、クラス不均衡問題におけるバイアスを軽減して少数クラスの性能を向上させる軽量フレームワークを提案し、Long-tailed CIFAR-10 での実験で既存手法を上回る結果を示したものである。

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

本論文は、医療画像分野における極少量の教師ありデータでの視覚言語モデル適応において、ラベルなしデータを活用して擬似ラベルを伝播させる半教師ありソルバーを提案し、ラベル付けの負担を 50% 以上削減する手法を提示するものである。

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

本論文は、ファウンデーションモデルを活用した異常合成パイプラインと、異常の周波数特性を捉えるウェーブレットドメイン注意機構を組み合わせることで、工業用異常検知の精度と効率を大幅に向上させる手法を提案しています。

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

本論文は、大規模視覚言語モデルのアーキテクチャとナビゲーションタスクのミスマッチを解消するため、トポロジー構造を明示的に注入する「TagaVLM」を提案し、R2R ベンチマークで既存の手法を凌駕する性能を達成したことを報告しています。

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

← 前へ次へ →