cs.CV 件の論文 | Gist.Science

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

本論文は、3D 意味的占有予測におけるラベルノイズ問題に対処するため、初のベンチマーク OccNL を構築し、二重ソースの部分的ラベル推論を用いた頑健なフレームワーク DPR-Occ を提案することで、極端なノイズ下でも安全なロボティクス知覚を実現する手法を提示しています。

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

この論文は、クラスレベルの属性とインスタンスレベルの視覚的特徴のギャップ、および意味と視覚の分布の不一致という生成ゼロショット学習の課題を解決するため、属性分布をモデル化し視覚に誘導された意味-視覚アライメントを行う「ADiVA」という手法を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

本論文は、事前学習済みのフローベースのテキストから動画生成モデルの初期潜在予測から運動表現を直接抽出する「フローガイダンス」を採用し、追加学習なしで効率的かつ柔軟に動画の運動転送を実現する新しいフレームワーク「FlowMotion」を提案しています。

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

この論文は、2 次元投影間の相関を無視する既存の手法の課題を解決するため、互いに垂直な 2 平面で訓練されたスコアベース拡散モデルを組み合わせることで、歯科用 CBCT 画像のインプラントアーチファクトを効果的に除去する 3 次元インパインティング手法を提案しています。

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

この論文は、従来の手法では扱いが難しかった自己回帰型ビジョン・ランゲージモデルの意思決定プロセスを、トークンごとの生成過程における注意マップの勾配を計算し、動的なヘッドフィルタリングとシーケンスレベルの集約によって画像領域の重要度を可視化する新しい説明可能性手法「DEX-AR」を提案し、ImageNet、VQAv2、PascalVOC での評価で既存手法を上回る性能を示したことを述べています。

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

本論文は、事前学習された Stable Diffusion の潜在空間で摂動を最適化し、EOT やガウス平滑化を組み合わせることで、既存の画素空間ベースの敵対的攻撃よりも頑健で転移性の高い「Latent Transfer Attack (LTA)」を提案するものです。

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

この論文は、可変オートエンコーダによる文脈の統合、ウェーブレット分解を用いた多周波数特徴の抽出、および意味認識型ミキスト・オブ・エキスパートモジュールを組み合わせることで、固定されたテキストプロンプトや空間領域のみに依存する既存手法の限界を克服し、ゼロショット異常検出の性能を向上させる「WMoE-CLIP」という手法を提案し、14 の産業・医療データセットでその有効性を実証したものです。

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

本論文は、アノテーションや事前学習が不要な点群セマンティックセグメンテーション手法「P-SLCR」を提案し、一貫した構造学習とプロトタイプ間関係に基づく一貫性推論により、S3DIS などのデータセットにおいて既存の教師あり手法 PointNet を上回る性能を達成したことを報告しています。

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

この論文は、ルーマニアや英国などからの 12 名の現代美術家が参加した調査を通じて、ChatGPT による作品のパロディ生成が色彩やテクスチャの類似性は示しつつも、構図や概念、意図といった本質的な側面において欠如しており、単なる「言い換え」に留まることを明らかにし、AI 生成芸術の評価には単一の指標ではなく多角的なメトリクスを用いた「スタイル転換ダッシュボード」の導入を提唱しています。

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

この論文は、マルチモーダル結合や非一様な時間的ダイナミクスという世界モデル固有の課題に対処するため、物理学的な曲率指標に基づくトークン予測と適応的スキップ手法を提案し、学習なしで拡散型世界モデルの推論を最大 3.7 倍高速化しつつロールアウト品質を 98% 維持する「WorldCache」を提案するものである。

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

K-MaT は、臨床テキストにアンカーされたプロンプトと融合グロモフ・ワシュタイン最適輸送を用いて高解像度画像モデルの決定構造を低解像度画像へ転送し、トレーニングデータなしで医療 VLM のクロスモーダル適応と性能向上を実現する手法です。

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

本論文は、画像の領域ごとの情報量や拡散段階に応じてトークン数を動的に調整する「Dynamic Chunking Diffusion Transformer（DC-DiT）」を提案し、事前学習済みモデルからの効率的なアップサイクルを可能にしながら、計算コストを削減しつつ生成品質を向上させることを実証しています。

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

本論文は、疎なボクセル潜在空間を介してメッシュの頂点変位場と接続性を直接予測し、等値面抽出やヒューリスティックなメッシングを不要にしながら、複雑な幾何学形状と整ったトポロジーを持つ 3D メッシュを効率的に生成する新しいトポロジー保存型潜在表現「LATO」を提案するものである。

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

この論文は、画像のみから無脊椎動物の乾燥重量を推定し、生物多様性モニタリングを効率化するため、BIODISCOVER 装置で得られる面積や沈降速度などの新規予測変数を用いた線形モデルと、単一・多視点・メタデータ対応の深層学習アーキテクチャによるアプローチを提案し、個体レベルで 10〜20% の中央値誤差を実現したことを報告しています。

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

本論文は、パノラマ歯科 X 線画像の分析において、反復的な検査と左右対称性の理解を可能にする強化学習ベースの自律型ビジョン・ランゲージモデル「OralGPT-Plus」を提案し、専門家の診断経路を含むデータセット「DentalProbe」と新しいベンチマーク「MMOral-X」を用いてその有効性を示したものである。

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

本論文は、2D 画像からの弱教師ありセマンティックセグメンテーションの精度向上を目的として、最新のフィードフォワード 3D 復元技術を用いて 3D 幾何構造を補助教師信号として活用し、スパースな注釈からシーン全体への注釈伝播を可能にする「Rewis3d」というフレームワークを提案し、追加のラベルや推論コストを増やすことなく既存手法を 2〜7% 上回る性能を達成したことを報告しています。

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

本論文は、スライド画像の階層構造を保存する領域ネスト型選択的走査と、診断パターンの多様性に対応する混合専門家モデルを統合した「MoEMambaMIL」を提案し、9 つのタスクで最先端の性能を達成したことを示しています。

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

この論文は、DINOv3 を基盤とした深度推定モデルと ALS データを用いてトレーニングされた CHMv2 を紹介し、既存の製品と比較して森林の高さ推定精度を大幅に向上させ、高い森林におけるバイアスを低減し、樹冠の細部をより正確に捉えた全球メータ解像度の林冠高マップを提示するものである。

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

本論文は、セマンティックに同等なプロンプト間の一貫性を欠くという SAM3 の課題を「プロンプトグループ」概念で再定義し、品質誘導正則化とロジットレベルの整合性制約を導入することで、アーキテクチャ変更なしにテキスト誘導核分割のロバスト性と汎化性能を大幅に向上させるフレームワークを提案しています。

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

本論文は、リアルタイムシーングラフ生成の精度と速度のバランスを最適化するため、REACT 基盤を拡張し、クロスアテンション機構を活用して推論速度を 20% 向上させながら関係予測精度を 10% 改善した新モデル「REACT++」を提案するものです。

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

← 前へ次へ →