cs.CV 件の論文 | Gist.Science

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

この論文は、ホモモルフィック暗号を用いてプライバシーを保護したままニューラルネットワーク推論を可能にする新たな行列符号化手法「Volley Revolver」を提案し、MNIST 手書き文字認識タスクにおけるその実装と性能（32 枚の暗号化画像を約 287 秒で処理）を示したものである。

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

この論文は、量子状態に画像を保存し、二重深層 Q 学習に基づく制御アルゴリズムを用いて測定前の匿名化を最適化することで、プライバシーと有用性の両立を実現する量子ベースのプライバシー保護カメラの概念を提案し、シミュレーションを通じてその有効性を示したものである。

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

本論文は、診断画像における良性と悪性の構造的なトポロジーの同一性という課題を解決するため、トポロジカルデータ解析とリプシッツ・キリング曲率を統合し、皮膚病変の分類において精度向上と誤判定の削減を実現する解釈可能なフレームワーク「GeoTop」を提案するものである。

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

この論文は、拡散モデルとテキスト画像モデルの利点を活用し、視覚的・言語的特徴を融合させることで、訓練データに存在しないクラスや背景に溶け込んだ対象物も検出可能な「オープンボキャブラリー・カモフラージュインスタンスセグメンテーション」を実現する手法を提案し、その有効性を示すものです。

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

本論文は、3DMM の表情パラメータをソース画像に直接転送して条件付きトライプレーンを生成し、コントラスト学習による外見依存性の排除を通じて、クロスアイデンティティな表情制御と視点変更を可能にする 3D 意識的なポートレートアニメーション手法「Export3D」を提案するものである。

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

本論文は、既存の深層学習法や従来の最適化手法が抱える計算コスト、メモリ使用量、汎化性の課題を解決し、トレーニング不要かつ GPU 加速により、多様な画像モダリティや生物種にわたって高速かつ高精度な密な微分同相マッチングを実現する「FireANTs」と呼ばれる適応的リーマン最適化アルゴリズムを提案するものである。

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

本論文は、腹部 CT スキャン、電子健康記録、放射線レポートから学習した大規模な 3 次元ビジョン・ランゲージ・ファウンデーションモデル「Merlin」を提案し、ゼロショット分類やレポート生成など多様なタスクにおいて既存モデルを上回る汎用性と精度を、大規模な内部・外部検証によって実証するとともに、モデル・コード・データセットを公開したものである。

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

この論文は、自動運転車の知覚システムに対する現実的な攻撃手法「TrashFuzz」を提案し、道路設計ガイドラインに準拠したゴミ箱などの街路物の配置を操作することで、自然な外観のまま自動運転車が交通法規違反を引き起こすような誤認識を誘発できることを実証しています。

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

この論文は、学習遺伝子（learngenes）と呼ばれるサイズ非依存の基礎コンポーネントを共有し、それらを柔軟に再結合することで、事前学習の繰り返しなしに多様なサイズやリソース制約に対応する拡散モデルを効率的に初期化できる新しい事前学習手法「FINE」を提案しています。

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

本論文は、1e17 から 6e18 FLOPs の広範な計算予算を用いた実験を通じて、拡散トランスフォーマー（DiT）の事前学習損失が計算量とべき乗則に従うことを初めて実証し、これにより最適なモデルサイズやデータ量の決定、さらには生成性能の高精度な予測を可能にしたことを示しています。

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

本論文は、高解像度のグリフ情報と知覚的損失、文字ごとのバウンディングボックス回帰、そしてスタイル注入技術を採用することで、複雑な文字の正確な編集と制御可能なスタイル転送を実現する、最先端の統合テキスト編集フレームワーク「TextMaster」を提案するものです。

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

本論文は、正常データ分布の確率モデルである正規化フローに、異常データとの特徴量分離を促す対比損失を導入したハイブリッド手法「FlowCLAS」を提案し、ロボット応用における異常セグメンテーションの性能を既存の判別手法に匹敵する水準まで向上させたことを示しています。

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

本論文は、大規模視覚言語モデルによる長尺動画解析の課題を解決するため、手・物体の追跡や活動領域のクラスタリング、環境レイアウトのマッピングに基づいて構造化された意味グラフ「VideoMindPalace」と、その評価ベンチマーク「VMB」を提案し、時空的一貫性と人間に準じた推論能力の向上を実証したものです。

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

この論文は、異なるドロップアウトおよび最大プーリング設定を持つ 3 つの CNN アーキテクチャを統合したアンサンブルモデル「DCENWCNet」を提案し、Rabin-WBC データセットにおいて既存の最先端モデルを上回る性能を発揮するとともに、LIME による解釈性を確保することで自動診断への信頼性を高めたことを示しています。

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

本論文は、3D 点雲トランスフォーマーの効率的な微調整を実現するため、凍結されたバックボーンと並列に動作するグラフ畳み込みサイドネットワークを採用し、学習パラメータ数、計算時間、メモリ消費を大幅に削減する「STAG」という手法と、その評価のための新しいベンチマーク「PCC13」を提案しています。

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

本研究では、歩行分析および認識のための大規模な公開データセット「UNB StepUP-P150」を提案し、150 名の被験者から収集された 20 万回以上の高解像度足底圧データ（多様な歩行速度と履物条件を含む）を提供することで、生体認証やバイオメカニクス研究における新たな基準を確立しています。

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

この論文は、2D 特徴マップへの符号化と SMPL モデルの活用、および潜在空間における 2 段階のフローマッチング学習を導入することで、衣服の細部と身体との相互作用を高精度に再現し、既存の最先端手法を大幅に上回る高品質な人間形状生成を実現する新しい手法を提案しています。

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

本論文は、第二階の神経常微分方程式（SONO）と MultiKAN 層を組み合わせた新しい U-Net 変種「Implicit U-KAN 2.0」を提案し、医療画像セグメンテーションにおいて解釈性、表現力、計算効率を同時に向上させ、既存の手法を上回る性能を達成することを示しています。

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

本論文は、画像分類モデルの精度以外の 9 つの品質次元を大規模に分析し、視覚言語モデルや自己教師あり学習、データセット規模の影響を明らかにするとともに、多角的な品質を評価する新たな指標「QUBA スコア」を提案するものです。

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

本論文は、エンコーダとデコーダを対照学習で共同事前学習する「DeCon」という効率的な自己教師あり学習フレームワークを提案し、これにより物体検出やセグメンテーションなどの密な予測タスクにおいて、既存の手法を上回る最先端の性能を達成することを示しています。

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs

← 前へ次へ →