cs.CV 件の論文 | Gist.Science

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

この論文は、2D から 3D へのシーン再構築における特徴量アップサンプラーの性能を評価するスペクトル診断フレームワークを提案し、空間的な詳細の強調よりもスペクトル構造の保存が再構築品質を決定づける重要な要因であることを示しています。

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

本論文は、イベントカメラのスパース性と高時間分解能を活用し、事前学習済み ViT と MaxViT、および深度推定モデルを組み合わせたグローバル・ローカル特徴融合パイプライン「EventGeM」を提案し、リアルタイムかつ高精度な視覚的場所認識を実現するものです。

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

この論文は、動画生成モデルの計算遅延を軽減するため、学習不要でフレーム間の重複潜在パッチを剪定し、注意機構の回復メカニズムによって視覚的アーティファクトを抑制する「LIPAR」フレームワークを提案し、生成品質を維持しつつ処理速度を約 1.45 倍に向上させることを示しています。

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

この論文は、分類マージンの拡大と入力摂動に対する予測の一貫性を同時に強制する新しい正則化フレームワーク「MaCS」を提案し、既存のアーキテクチャや追加データなしで、視覚モデルの較正精度とロバスト性を向上させつつ精度を維持または改善できることを示しています。

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

この論文は、低照度ノイズ、モーションブラー、モザイクアーティファクトなど、多様な劣化条件下でも物理的一貫性を保ちながら最先端の性能を発揮する、単一段階の画像・ストークス統合処理を行う統一的なアーキテクチャを提案するものです。

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

Remote Sensing Image Classification Using Deep Ensemble Learning

この論文は、CNN と Vision Transformer の長所を組み合わせつつ、冗長な特徴表現によるボトルネックを回避するために 4 つの独立した融合モデルを最終予測段階でアンサンブルする手法を提案し、リモートセンシング画像分類において既存のアーキテクチャを上回る高い精度と計算効率を達成したことを示しています。

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

本論文は、意味情報と絶対幾何学を統合した「3D 認知グラフ」を条件として拡散モデルを導くことで、物理的に妥当で構造的に合理的な 3D 生成を実現するフレームワーク「Cog2Gen3D」を提案し、既存手法を凌駕する性能を実証しています。

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

VS3R は、ディープ 3D 再構成と生成拡散モデルを相乗的に組み合わせることで、極端なカメラブレに対しても幾何学的な頑健性とフルフレームの一貫性を両立し、最先端の手法を凌駕する高品質な動画安定化を実現するフレームワークです。

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

この論文は、検証済みの実行軌跡から自律的に有効なツールシーケンスを特定・合成し、新しい高レベルのプリミティブとして登録することで、静的なツール構成から経験駆動型の自己進化型医療エージェント「MACRO」を提案し、多様な医療画像タスクにおけるオーケストレーション精度とドメイン間汎化性能を向上させる手法を報告しています。

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

本論文は、臨床腫瘍解析の信頼性と解釈可能性を向上させるため、150 万件の CoT ラベル付きデータセット「TumorCoT」と、3D 画像と臨床テキストを密接に連携させた反復的な推論フレームワーク「TumorChain」を提案し、病変検出から病理予測までの一貫した推論を実現する研究です。

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

本論文は、視覚言語モデルの推論能力を向上させるため、人間の知覚習慣やモデルの構造に合致するパッチ単位の視覚的手がかり「PatchCue」を提案し、教師あり微調整とプロセス報酬に基づく強化学習の二段階アプローチにより、従来のピクセルレベルや点ベースの手がかりよりも優れた性能を達成したことを示しています。

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

本論文は、医療画像セグメンテーションにおけるドメイン適応の課題を解決するため、モデル重みの更新ではなく軽量なメモリ空間への適応を可能にする「MemSeg-Agent」を提案し、フェデレーティッド学習における通信コストの削減とテスト時適応の両立を実現する新しいパラダイムを提示しています。

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

本論文は、5 つの公開データベースと 7 つの画像類似度手法を用いた体系的な評価を通じて、合成された新規視点画像がビデオ場所認識（VPR）の性能向上に寄与し、特に視点の変化量よりも追加する画像の数やデータセットの画像タイプが重要であることを示しています。

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

この論文は、パノラマ画像の新しい視点合成において、直交座標系 Triplane の歪みや疎な視点でのオクルージョン処理の課題を解決するため、マンハッタン世界仮説に適合した円柱状 Triplane を採用し、ピクセルベースと体積ベースの双枝構造で単一・複数視点から高品質な 3D ガウシアンスプラッティングを実現する「CylinderSplat」を提案しています。

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh は、単一の RGB 画像から自己回帰的に完全な 3D 室内シーンのメッシュを直接再構成し、従来の手法とは異なり、レイアウトと幾何形状を統合モデルで同時に予測することで、高品質かつ軽量なメッシュを単一のフォワードパスで生成する手法です。

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

本論文は、商品、テキスト、スタイルの 3 つの条件を単一ステージで効率的に制御し、従来の多段階パイプラインが抱える忠実度や文字精度、スタイルの一貫性の問題を解決する「InnoAds-Composer」フレームワークと、それに対応する新規データセットを提案するものである。

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

この論文は、概念ボトルネックモデル（CBM）の公平性を向上させるため、情報漏洩の低減、バイアス概念の除去、敵対的デバイアシングという 3 つの手法を提案し、公平性と性能のトレードオフを改善する結果を示しています。

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

本論文は、UAV 画像における小物体検出の課題を解決するため、構造的詳細の保持と異種特徴ストリームの整列を可能にする軽量な協調検出フレームワーク「CollabOD」を提案するものである。

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

本論文は、幾何学的な正確さよりも芸術的意図を重視し、プロの 3D 映画のスタイルを学習して没入感のある 2D から 3D への変換を実現する新たなパラダイム「Artistic Disparity Synthesis」と、その実現枠組み Art3D を提案しています。

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

本論文は、単一のパノラマ画像から効率的に高忠実度の 3D シーンを生成する新規フレームワーク「Pano3DComposer」を提案し、既存の反復最適化や視野制限の課題を克服して、約 20 秒で 360 度の完全な 3D 環境を構築可能にするものである。

Zidian Qiu, Ancong Wu2026-03-09💻 cs

← 前へ次へ →