cs.CV 件の論文 | Gist.Science

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

本論文は、従来の LED 形状に依存しない汎用的な可視光位置推定手法「LC-VLP」を提案し、Lamé 曲線を用いた LED の形状特徴と対応付け不要の FreePnP アルゴリズムを組み合わせることで、円形や長方形など多様な LED 形状において高精度なカメラ姿勢推定を実現することを示しています。

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

この論文は、残差ベクトル量子化 VAE と対照学習を組み合わせることで人間の動作からスタイルと内容を解離させ、推論時のコード交換によって微調整なしでスタイル転送を実現する新しい手法を提案しています。

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

この論文は、動画の符号化（コーデック）の原理に基づき予測残差にのみ焦点を当てるスパースなアーキテクチャ「OneVision-Encoder」を提案し、少ない計算資源で画像・動画・文書理解の各種ベンチマークにおいて既存の強力なモデルを上回る性能を発揮することを示しています。

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

本論文は、高解像度と低解像度の特徴間の整合性をモデル化することで正常性を学習し、従来のピクセルレベル再構成に依存しない教師なし工業異常検出フレームワーク「HLGFA」を提案し、MVTec AD データセットにおいて最先端の性能を達成したことを報告しています。

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

本論文は、Web 規模の動画で事前学習された世界モデルに基づく強化学習（RAMP）を採用し、複雑な長期タスクにおける適応性と成功率を大幅に向上させた新しい VLA モデル「GigaBrain-0.5M*」を提案しています。

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

PCReg-Net: Progressive Contrast-Guided Registration for Cross-Domain Image Alignment

本論文は、異なるドメイン間の画像変形登録における輝度一定性の仮定違反という課題に対し、粗いアライメントから微調整までの段階的な対比ガイド手法「PCReg-Net」を提案し、限られたパラメータ数でリアルタイムかつ高精度な結果を実現したことを報告しています。

Jiahao Qin2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

本論文は、1,888 名の参加者から収集された大規模な臨床タスク動画データを用いて、VideoPrism や V-JEPA などの 7 種類のビデオ基盤モデルを体系的に評価し、タスクごとの最適なモデル選択と遠隔パーキンソン病スクリーニングの課題を明らかにした研究です。

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

本論文は、視覚的に豊かな技術文書における既存の事前取り込み手法の限界を克服するため、事前処理でのVLM呼び出しを排除し、構造化情報に基づく階層的インデックスと推論時の遅延視覚取り込み（DVI）を採用することで、検索精度と質問応答の正答率を大幅に向上させるフレームワークを提案しています。

Tao Xu2026-02-27💬 cs.CL

Depth from Defocus via Direct Optimization

この論文は、凸最適化と並列グリッド探索を交互に反復させる代替最小化手法を用いることで、従来の深層学習法よりも高解像度で深度から焦点ぼけ（Depth from Defocus）を直接最適化により復元する実用的なアプローチを提案し、合成および実世界のデータセットで有望な結果を示しています。

Holly Jackson, Caleb Adams, Ignacio Lopez-Francos + 1 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

この論文は、スペクトルレンダリングの計算コストを削減しつつ色再現性を維持するため、RGB レンダリング操作と線形符号化・復号化を組み合わせた「ハダマードスペクトル符号」というコンパクトな潜在表現を提案し、既存の RGB アセットの統合も可能にする手法を提示しています。

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

この論文は、照明や肌色などの環境要因と内在的要因を分離する新たなフレームワークを提案し、皮膚病変画像の多様な肌色や撮影条件に対応した公平な診断と教育用可視化を実現するものです。

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

本論文は、SAR 画像の複雑な成像メカニズムやテキストデータの不足という課題に対処するため、地理空間モデルを事前知識として活用し、多源リモートセンシング時空間特徴を埋め込むとともに、知識注入とタスク実行を二段階で分離する戦略を採用した、SAR 画像に特化した最先端の視覚言語モデル「FUSAR-GPT」を提案するものです。

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

本論文は、連続空間での推定が抱える課題を克服するため、離散拡散プロセス、動的なフロー決定機構、および階層的な運動学的結合戦略を導入した「DICArt」という新たなカテゴリレベルの可動物体姿勢推定フレームワークを提案し、その優れた性能を実証しています。

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

本論文は、既存のモデルが検出できない視覚テキスト生成における構造的欠陥を特定し、強化学習による報酬信号の最適化を通じて高忠実度なテキスト描画を実現する新しいフレームワーク「TextPecker」を提案し、中国語を含む多様なモデルで画期的な性能向上を達成したことを示しています。

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

本論文は、大規模データや推論注釈を必要とせず、難易度バイアスを軽減する新しい最適化手法「Dr. GRPO」を採用することで、既存の視覚言語行動モデルよりもはるかに少ないデータと計算コストで自動運転において競争力のある性能を達成する「NoRD」を提案しています。

Ishaan Rawal, Shubh Gupta, Yihan Hu + 1 more2026-02-27🤖 cs.AI

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

本論文は、マルチモーダル大規模言語モデルの推論能力向上に向け、視覚的複雑さと推論の不確実性に基づいてサンプルを難易度別に再グループ化し、極端なサンプルによる標準偏差の歪みを防ぐ「難易度感知型グループ正規化（Durian）」を提案するものである。

Jinghan Li, Junfeng Fang, Jinda Lu + 5 more2026-02-27💻 cs

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion

この論文は、内視鏡環境における弱いテクスチャや光の反射といった課題に対処し、拡散モデルを用いて画像と疎な深度情報、深度勾配特徴を統合することで、内視鏡手術ロボットのナビゲーション精度を向上させる新しい深度補完手法「EndoDDC」を提案し、既存の最先端モデルを上回る性能を実証したものです。

Yinheng Lin, Yiming Huang, Beilei Cui + 4 more2026-02-27💻 cs

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

本論文は、概念理解と空間定位の表現競合を解決するため、段階的なカリキュラム学習とプログレッシブ・リプレゼンテーション・ウィービング（PRW）モジュールを採用し、画像編集からカスタマイズ生成まで多様な条件付き画像生成タスクを統合的に実現する「CoLoGen」を提案するものです。

YuXin Song, Yu Lu, Haoyuan Sun + 6 more2026-02-27💻 cs

Solaris: Building a Multiplayer Video World Model in Minecraft

この論文は、協調的なマルチエージェント相互作用と同期された動画・行動データの収集を可能にする新たなデータシステムを開発し、段階的な学習パイプラインと「チェックポイント付き自己強制（Checkpointed Self Forcing）」手法を用いて、一貫したマルチビュー観測をシミュレートするマルチプレイヤー動画世界モデル「Solaris」を構築し、既存のベースラインを上回る性能を実証したものである。

Georgy Savva, Oscar Michel, Daohan Lu + 6 more2026-02-27💻 cs

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

この論文は、クエリ頻度パターンとクラスタ一貫性メトリクスを活用して計算リソースを動的に割り当てる適応型プリフィルタリング手法を提案し、ImageNet-1k における実験で、静的な nprobe 選択と比較して距離計算を 20.4% 削減しながら同等の再帰率を達成することを示しています。

Teodor-Ioan Calin2026-02-27💻 cs

← 前へ次へ →