cs.CV 件の論文 | Gist.Science

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

この論文は、可変オートエンコーダによる文脈の統合、ウェーブレット分解を用いた多周波数特徴の抽出、および意味認識型ミキスト・オブ・エキスパートモジュールを組み合わせることで、固定されたテキストプロンプトや空間領域のみに依存する既存手法の限界を克服し、ゼロショット異常検出の性能を向上させる「WMoE-CLIP」という手法を提案し、14 の産業・医療データセットでその有効性を実証したものです。

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

本論文は、アノテーションや事前学習が不要な点群セマンティックセグメンテーション手法「P-SLCR」を提案し、一貫した構造学習とプロトタイプ間関係に基づく一貫性推論により、S3DIS などのデータセットにおいて既存の教師あり手法 PointNet を上回る性能を達成したことを報告しています。

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

この論文は、ルーマニアや英国などからの 12 名の現代美術家が参加した調査を通じて、ChatGPT による作品のパロディ生成が色彩やテクスチャの類似性は示しつつも、構図や概念、意図といった本質的な側面において欠如しており、単なる「言い換え」に留まることを明らかにし、AI 生成芸術の評価には単一の指標ではなく多角的なメトリクスを用いた「スタイル転換ダッシュボード」の導入を提唱しています。

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

この論文は、マルチモーダル結合や非一様な時間的ダイナミクスという世界モデル固有の課題に対処するため、物理学的な曲率指標に基づくトークン予測と適応的スキップ手法を提案し、学習なしで拡散型世界モデルの推論を最大 3.7 倍高速化しつつロールアウト品質を 98% 維持する「WorldCache」を提案するものである。

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

K-MaT は、臨床テキストにアンカーされたプロンプトと融合グロモフ・ワシュタイン最適輸送を用いて高解像度画像モデルの決定構造を低解像度画像へ転送し、トレーニングデータなしで医療 VLM のクロスモーダル適応と性能向上を実現する手法です。

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

本論文は、画像の領域ごとの情報量や拡散段階に応じてトークン数を動的に調整する「Dynamic Chunking Diffusion Transformer（DC-DiT）」を提案し、事前学習済みモデルからの効率的なアップサイクルを可能にしながら、計算コストを削減しつつ生成品質を向上させることを実証しています。

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

本論文は、疎なボクセル潜在空間を介してメッシュの頂点変位場と接続性を直接予測し、等値面抽出やヒューリスティックなメッシングを不要にしながら、複雑な幾何学形状と整ったトポロジーを持つ 3D メッシュを効率的に生成する新しいトポロジー保存型潜在表現「LATO」を提案するものである。

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

この論文は、画像のみから無脊椎動物の乾燥重量を推定し、生物多様性モニタリングを効率化するため、BIODISCOVER 装置で得られる面積や沈降速度などの新規予測変数を用いた線形モデルと、単一・多視点・メタデータ対応の深層学習アーキテクチャによるアプローチを提案し、個体レベルで 10〜20% の中央値誤差を実現したことを報告しています。

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

本論文は、パノラマ歯科 X 線画像の分析において、反復的な検査と左右対称性の理解を可能にする強化学習ベースの自律型ビジョン・ランゲージモデル「OralGPT-Plus」を提案し、専門家の診断経路を含むデータセット「DentalProbe」と新しいベンチマーク「MMOral-X」を用いてその有効性を示したものである。

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

本論文は、2D 画像からの弱教師ありセマンティックセグメンテーションの精度向上を目的として、最新のフィードフォワード 3D 復元技術を用いて 3D 幾何構造を補助教師信号として活用し、スパースな注釈からシーン全体への注釈伝播を可能にする「Rewis3d」というフレームワークを提案し、追加のラベルや推論コストを増やすことなく既存手法を 2〜7% 上回る性能を達成したことを報告しています。

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

本論文は、スライド画像の階層構造を保存する領域ネスト型選択的走査と、診断パターンの多様性に対応する混合専門家モデルを統合した「MoEMambaMIL」を提案し、9 つのタスクで最先端の性能を達成したことを示しています。

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

この論文は、DINOv3 を基盤とした深度推定モデルと ALS データを用いてトレーニングされた CHMv2 を紹介し、既存の製品と比較して森林の高さ推定精度を大幅に向上させ、高い森林におけるバイアスを低減し、樹冠の細部をより正確に捉えた全球メータ解像度の林冠高マップを提示するものである。

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

本論文は、セマンティックに同等なプロンプト間の一貫性を欠くという SAM3 の課題を「プロンプトグループ」概念で再定義し、品質誘導正則化とロジットレベルの整合性制約を導入することで、アーキテクチャ変更なしにテキスト誘導核分割のロバスト性と汎化性能を大幅に向上させるフレームワークを提案しています。

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

本論文は、リアルタイムシーングラフ生成の精度と速度のバランスを最適化するため、REACT 基盤を拡張し、クロスアテンション機構を活用して推論速度を 20% 向上させながら関係予測精度を 10% 改善した新モデル「REACT++」を提案するものです。

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

この論文は、侵食や欠損、不規則な形状といった実世界の課題に直面する文化遺産の断片再構成に対し、自動解法と人間のインタラクションを統合したハイブリッド枠組みを提案し、大規模な断片の再構築において精度と効率を大幅に向上させることを示しています。

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

この論文は、顔属性学習におけるアノテーションの不一致を軽減するため、学習に悪影響を与えるサンプルを特定し、潜在拡散オートエンコーダーを用いて画像レベルでラベルと視覚内容の整合性を保ちながら修正する「DiffInf」という新しいフレームワークを提案し、その有効性を示したものである。

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

この論文は、合成図形を用いた知覚的競合実験を通じて、Vision Transformer（BEiT）が図地組織の曖昧さを後期層で解決し、凸性の優位性を決定づける特定の機能単位（特にアテンションヘッド L0H9）を特定し、その単一ヘッドの調整によって知覚的決定の分布を連続的に変化させられることを示しました。

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

本論文は、水槽環境における屈折歪みを考慮したステレオビジョン手法とYOLOv11-Poseネットワークを組み合わせ、小型淡水魚の非侵襲的な成長モニタリングを可能にする新しいシステムを提案し、スラウェシ米魚のデータセットを用いてその有効性を検証したものである。

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

本論文は、既存のゼロショットモデル「nnInteractive」の少数パラメータを継続的に適応させる「CLoPA」を提案し、多様な医療画像タスクにおいて単一のトレーニングエピソードで専門家レベルの性能を達成し、特に複雑な幾何学構造を持つ標的においても効果的であることを示しています。

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

← 前へ次へ →