Scale-invariant Gaussian derivative residual networks

本論文は、スケーリング不変性とスケーリング共変性を数学的に保証し、既知のスケールで訓練されたモデルが未知のスケールに対しても高い汎化性能を示すことを実証する「スケーリング不変ガウス微分残差ネットワーク(GaussDerResNets)」を提案し、STL-10、Fashion-MNIST、CIFAR-10 のスケーリング版を用いた実験でその有効性を確認したものである。

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

大規模視覚言語モデル(LVLM)は、ノードや構造的特徴は視覚エンコーダ内で早期に線形に表現される一方で、エッジ情報は言語モデルのテキストトークン段階まで遅れて現れるため、関係性の理解に課題を抱えていることを、合成図データセットを用いた内部表現の探査により明らかにしました。

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

本論文は、写真計測残差、セマンティック事前知識、幾何学的事前知識を融合したマルチモーダル事前情報に基づく重要度サンプリングを中核とした階層的 3D ガウススプラッティング手法を提案し、これにより疎なビューからの新規視点合成において過学習やノイズを抑制しつつ、DTU データセットで最大 0.3dB の PSNR 向上を実現する SOTA 性能を達成したことを示しています。

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

本論文は、ビデオ生成におけるメモリおよび計算コストの削減と画質の維持を両立させるため、ブロックごとの最適な量子化形式を効率的に選択し、残差誤差の再量子化や意味的相関に基づくトークン共有といった手法を統合した「SemanticDialect」を提案し、Open-Sora 2.0 において FP16 に匹敵する画質を達成したことを示しています。

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

この論文は、生体認証画像のプライバシーを保護しつつ偽造検出精度を維持するため、自然な画像に顔を隠すステガノグラフィ技術と、低周波成分の干渉を抑制し隠れた特徴を強調する独自のアーキテクチャを組み合わせた「StegaFFD」という新しいフレームワークを提案しています。

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

LLandMark は、クエリ解析、ランドマーク推論、マルチモーダル検索、回答合成の 4 段階で専門エージェントが協調し、特にベトナムの文化的・空間的ランドマークの検出や OCR 精度向上に特化したモジュール型マルチエージェントフレームワークとして、複雑なマルチモーダル動画検索を可能にするものです。

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

本論文は、高品質な 3D 人データセットで微調整されたマルチビュー拡散モデルと、カメラ姿勢の共同最適化、および深度に基づく顔歪み補正モジュールを組み合わせることで、単一画像から高忠実度かつ自由視点の 3D 人間再構築を実現する「MVD-HuGaS」を提案し、Thuman2.0 や 2K2K データセットにおいて最先端の性能を達成したことを報告しています。

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

本論文は、自然言語表現内の構成的な文脈推論を活用し、文レベルだけでなくフレーズレベルでの 3D 物体セグメンテーションを可能にする新たなタスク「3D-DRES」、対応する大規模データセット「DetailRefer」、および効率的なベースラインモデル「DetailBase」を提案し、既存の 3D 視覚言語タスクの性能向上にも寄与することを示しています。

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

本論文は、残差ベクトル量子化と軽量なバックボーンネットワークを組み合わせることで、低ビットレート環境での柔軟なプログレッシブ伝送と、MS-ILLM 比で 10 倍以上の高速なエンコード・デコードを実現しつつ、高品質な生成画像圧縮を可能にする「ProGIC」を提案するものである。

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

本論文は、事前知識を必要とせず、ユーザーと物体の相互作用動画と初期 3D 走査データから、動的・静的な要素を分離する手法を用いて、可動部品の分解、関節の特定、および高品質なインタラクティブな 3D デジタル複製の再構築を実現する新しいフレームワーク「Articulation in Motion (AiM)」を提案するものである。

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

本研究は、14,049 例の腎生検から抽出された 100 万個以上の糸球体で学習したエンティティ中心の基盤モデル「GloPath」を提案し、52 種類のタスクにおいて最先端の手法を上回る病変評価性能と、組織レベルの形態と臨床指標の関連性を発見する能力を実証したものである。

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

この論文は、ラベル割合事前知識に基づく「プロポーション損失」を半教師あり学習の正則化項として初めて導入し、クラス不均衡問題におけるバイアスを軽減して少数クラスの性能を向上させる軽量フレームワークを提案し、Long-tailed CIFAR-10 での実験で既存手法を上回る結果を示したものである。

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG