cs.CV 件の論文 | Gist.Science

Robust Provably Secure Image Steganography via Latent Iterative Optimization

この論文は、暗号空間における反復最適化を用いて、画像圧縮や処理に対する頑健性を大幅に向上させつつ、埋め込みの証明可能なセキュリティを維持する新しい画像ステガノグラフィフレームワークを提案し、その有効性を示しています。

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen RenWed, 11 Ma💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

本論文は、物理制約の違反に伴う不確実性を定量化し、脳梗塞の CT 灌流画像解析における精度と信頼性を向上させるために、証拠深層学習と物理情報ニューラルネットワークを統合した「EPPINN」という新しい枠組みを提案し、その有効性を検証したものである。

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

本論文は、既存の自己教師あり骨格ベース動作認識手法が抱える課題を解決するため、無限骨格データゲームの均衡定理に基づき多視点ミニマックス最適化と二重損失均衡オプティマイザを導入した「M3GCLR」を提案し、主要ベンチマークで最先端の性能を達成したことを報告しています。

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

本論文は、限られたアノテーションと大規模な画像を扱う乳腺撮影の分類タスクにおいて、事前学習済み基盤モデルの特徴量を凍結し、軽量なマルチインスタンス学習ヘッドのみを学習することで、計算コストを大幅に削減しつつ臨床規模で最先端の性能を達成する「MIL-PF」というスケーラブルなフレームワークを提案するものです。

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

本論文は、異なる視野や向きに対する頑健性を欠く既存の手法の問題を解決し、単一のモデルで卓越した性能を発揮する「SinGeo」というフレームワークを提案し、二重の識別学習とカリキュラム学習を導入することで、クロスビュー地理定位の分野において最先端の結果を達成したことを示しています。

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao WuWed, 11 Ma💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

本論文は、イベントカメラの時間的連続性を活用し、Visual Geometry Grounded Transformer（VGGT）から時空間および幾何学的な事前知識を蒸留する新たなフレームワーク「EventVGGT」を提案し、既存手法を大幅に上回る一貫性のある深度推定を実現するものである。

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

この論文は、拡散モデルの潜在空間融合とランダム基底メカニズムを活用し、既存のトレーニング不要なカバレス隠蔽法を凌駕する画質、多様性、耐ノイズ性、そしてステガノ分析への耐性を備えつつ、ユーザーごとのアクセス制御を可能にする新しいフレームワーク「MIDAS」を提案するものである。

Minyeol Bae, Si-Hyeon LeeWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

ICDAR 2025 における複雑なレイアウトを持つ文書画像の機械翻訳コンペティションは、OCR 不要・OCR 利用の 2 つのトラックで 69 チームが参加し、大規模モデルが複雑な文書画像の翻訳において有望な新たなパラダイムを確立したことを示す結果を報告しています。

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

この論文は、YOLO 系オブジェクト検出器のニューラルアーキテクチャ探索における高コストな評価問題を解決するため、COCO-mini 上で学習した 1,500 個のアーキテクチャと、高性能領域に特化して自己進化するメカニズムにより精度を向上させた LightGBM 代理モデルを組み合わせた、初の YOLO 向け代理ベンチマーク「YOLO-NAS-Bench」を提案し、公式 YOLO バイアスを超えた高性能アーキテクチャの発見を実証しています。

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao WangWed, 11 Ma💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

本論文は、DiT-XL/2 の FLOPs の 50% 未満で同等の性能を達成し、さらに 4 GPU 環境でのトレーニングを可能にする「FCDM」と呼ばれる完全畳み込み拡散モデルを提案し、現代の畳み込み設計が拡散モデルのスケーリングにおいて効率的かつ競争力のある代替手段となり得ることを示しています。

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

この論文は、向き付き物体検出の課題を解決し、リアルタイム性と高精度を両立する初の検出トランスフォーマー「RiO-DETR」を提案し、主要なデータセットで新たな速度と精度のトレードオフを確立したことを報告しています。

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

この論文は、異なるドメインのレイアウト構造やラベル付けスタイルの差異を考慮し、記述知識を手がかりとしてドメイン固有のプロンプトを生成する「PromptDLA」という新しいドメイン認識型プロンプターを提案し、複数の主要なドキュメントレイアウト分析データセットにおいて最先端の性能を達成したことを示しています。

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

CIGPose は、視覚的コンテキストに起因する偽の相関を構造的因果モデルに基づいて特定し、予測不確実性を用いた因果介入モジュールと階層的グラフニューラルネットワークを組み合わせることで、解剖学的に妥当な全身ポーズ推定を実現し、COCO-WholeBody ベンチマークで新たな最先端性能を達成するフレームワークです。

Bohao Li, Zhicheng Cao, Huixian Li, Yangming GuoWed, 11 Ma💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

この論文は、メタ学習による事前学習と、テスト時のデータ特性に応じた学習率や更新頻度を動的に調整するデータ適応型メカニズムを導入することで、分布シフト下における軌道予測の性能を大幅に向上させる手法「MetaDAT」を提案しています。

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru XueWed, 11 Ma💻 cs

Open-World Motion Forecasting

この論文は、認識の不完全さや物体カテゴリの時間的変化といった現実世界の課題に対処するため、新しい物体クラスが逐次導入される「オープンワールド運動予測」という新たな設定を提案し、擬似ラベリングと視覚言語モデル、そしてクエリ特徴量分散に基づくリプレイサンプリングを組み合わせたエンドツーエンドのクラス増分学習フレームワークを構築し、忘却を抑制しつつ新規クラスへの適応とゼロショット転送を実現したことを示しています。

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

本論文は、医療画像診断における単一ビュー内の異常間の依存関係と複数ビュー間の動的変化を同時にモデル化し、欠損データにも頑健な新しいグラフベースの学習フレームワーク「GIIM」を提案し、その有効性を CT、MRI、マンモグラフィーなど多様な画像モダリティで実証したものである。

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven TruongWed, 11 Ma💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

この論文は、臨床ガイドラインの更新に柔軟に対応し、再学習なしでゼロショットで放射線治療の標的体積を自動描画する新しい AI エージェント「OncoAgent」を提案し、その性能が教師ありモデルと同等でありながら医師からの評価も高いことを示しています。

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

本論文は、視覚エンコーダの解凍による知覚性能の低下と長期計画における不安定性という課題を解決するため、自己アンカー型知覚制約とオラクル指導軌道最適化を統合した新しい協調的知覚・計画蒸留フレームワーク「EvoDriveVLA」を提案し、オープンループおよびクローズドループ評価の両方で最先端の性能を達成したことを報告しています。

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

既存の手術室シーングラフが抱える構造的な限界を克服するため、本論文は、手術室の複雑な多様体幾何学と高次関係を本質的に保持する新しいトポロジカルな表現「TopoOR」を提案し、多様なモダリティを統合した単一の潜在空間に落とし込むことなく、滅菌違反検出やロボット動作予測などの安全上重要な推論において従来の手法を上回る性能を実現することを示しています。

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart BastianWed, 11 Ma💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

本論文は、19 世紀の複雑な二言語レイアウトと劣化したポリトニック文字を特徴とする『パトロロギア・グラエカ』の未デジタル化巻を対象に、YOLO と CRNN を組み合わせた専用パイプラインにより高精度な OCR を実現し、約 600 万トークンの注釈付きコーパスをオープンリリースするとともに、ノイズの多いポリトニック・ギリシャ語の OCR における新たなベンチマークを確立したことを報告するものである。

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs

← 前へ次へ →