Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

この論文は、量子状態に画像を保存し、二重深層 Q 学習に基づく制御アルゴリズムを用いて測定前の匿名化を最適化することで、プライバシーと有用性の両立を実現する量子ベースのプライバシー保護カメラの概念を提案し、シミュレーションを通じてその有効性を示したものである。

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

本論文は、診断画像における良性と悪性の構造的なトポロジーの同一性という課題を解決するため、トポロジカルデータ解析とリプシッツ・キリング曲率を統合し、皮膚病変の分類において精度向上と誤判定の削減を実現する解釈可能なフレームワーク「GeoTop」を提案するものである。

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

この論文は、拡散モデルとテキスト画像モデルの利点を活用し、視覚的・言語的特徴を融合させることで、訓練データに存在しないクラスや背景に溶け込んだ対象物も検出可能な「オープンボキャブラリー・カモフラージュインスタンスセグメンテーション」を実現する手法を提案し、その有効性を示すものです。

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

本論文は、3DMM の表情パラメータをソース画像に直接転送して条件付きトライプレーンを生成し、コントラスト学習による外見依存性の排除を通じて、クロスアイデンティティな表情制御と視点変更を可能にする 3D 意識的なポートレートアニメーション手法「Export3D」を提案するものである。

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

本論文は、既存の深層学習法や従来の最適化手法が抱える計算コスト、メモリ使用量、汎化性の課題を解決し、トレーニング不要かつ GPU 加速により、多様な画像モダリティや生物種にわたって高速かつ高精度な密な微分同相マッチングを実現する「FireANTs」と呼ばれる適応的リーマン最適化アルゴリズムを提案するものである。

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

本論文は、腹部 CT スキャン、電子健康記録、放射線レポートから学習した大規模な 3 次元ビジョン・ランゲージ・ファウンデーションモデル「Merlin」を提案し、ゼロショット分類やレポート生成など多様なタスクにおいて既存モデルを上回る汎用性と精度を、大規模な内部・外部検証によって実証するとともに、モデル・コード・データセットを公開したものである。

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

この論文は、自動運転車の知覚システムに対する現実的な攻撃手法「TrashFuzz」を提案し、道路設計ガイドラインに準拠したゴミ箱などの街路物の配置を操作することで、自然な外観のまま自動運転車が交通法規違反を引き起こすような誤認識を誘発できることを実証しています。

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

この論文は、学習遺伝子(learngenes)と呼ばれるサイズ非依存の基礎コンポーネントを共有し、それらを柔軟に再結合することで、事前学習の繰り返しなしに多様なサイズやリソース制約に対応する拡散モデルを効率的に初期化できる新しい事前学習手法「FINE」を提案しています。

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

本論文は、高解像度のグリフ情報と知覚的損失、文字ごとのバウンディングボックス回帰、そしてスタイル注入技術を採用することで、複雑な文字の正確な編集と制御可能なスタイル転送を実現する、最先端の統合テキスト編集フレームワーク「TextMaster」を提案するものです。

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

本論文は、正常データ分布の確率モデルである正規化フローに、異常データとの特徴量分離を促す対比損失を導入したハイブリッド手法「FlowCLAS」を提案し、ロボット応用における異常セグメンテーションの性能を既存の判別手法に匹敵する水準まで向上させたことを示しています。

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

本論文は、大規模視覚言語モデルによる長尺動画解析の課題を解決するため、手・物体の追跡や活動領域のクラスタリング、環境レイアウトのマッピングに基づいて構造化された意味グラフ「VideoMindPalace」と、その評価ベンチマーク「VMB」を提案し、時空的一貫性と人間に準じた推論能力の向上を実証したものです。

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

この論文は、異なるドロップアウトおよび最大プーリング設定を持つ 3 つの CNN アーキテクチャを統合したアンサンブルモデル「DCENWCNet」を提案し、Rabin-WBC データセットにおいて既存の最先端モデルを上回る性能を発揮するとともに、LIME による解釈性を確保することで自動診断への信頼性を高めたことを示しています。

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

本論文は、3D 点雲トランスフォーマーの効率的な微調整を実現するため、凍結されたバックボーンと並列に動作するグラフ畳み込みサイドネットワークを採用し、学習パラメータ数、計算時間、メモリ消費を大幅に削減する「STAG」という手法と、その評価のための新しいベンチマーク「PCC13」を提案しています。

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

本研究では、歩行分析および認識のための大規模な公開データセット「UNB StepUP-P150」を提案し、150 名の被験者から収集された 20 万回以上の高解像度足底圧データ(多様な歩行速度と履物条件を含む)を提供することで、生体認証やバイオメカニクス研究における新たな基準を確立しています。

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

本論文は、第二階の神経常微分方程式(SONO)と MultiKAN 層を組み合わせた新しい U-Net 変種「Implicit U-KAN 2.0」を提案し、医療画像セグメンテーションにおいて解釈性、表現力、計算効率を同時に向上させ、既存の手法を上回る性能を達成することを示しています。

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

本論文は、エンコーダとデコーダを対照学習で共同事前学習する「DeCon」という効率的な自己教師あり学習フレームワークを提案し、これにより物体検出やセグメンテーションなどの密な予測タスクにおいて、既存の手法を上回る最先端の性能を達成することを示しています。

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs